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内 容 提要 


Scrapy 是 使 用 Python 开发 的 一 个 快速 、 高 层次 的 屏幕 抓 取 和 Web 抓 
取 框 猴 ， 用 于 抓 Web 站 点 并 从 页 面 中 提取 结构 化 的 数据 。 本 书 以 
Scrapy 1.0 版 本 为 基础 ， 讲 解 了 Scrapy 的 基础 知识 ， 以 及 如 何 使 用 
Python 和 三 方 API 提 取 、 整 理 数 据 ， 以 满足 目 己 的 需求 。 


本 书 共 11 划 ， 其 内 容 涵 盖 了 Scrapy 基 础 知识 ， 理 解 HTML 和 
XPath， 安 装 Scrapy 并 疏 取 一 个 网 站 ， 使 用 疏 虫 填充 数据 库 并 输出 到 移 
动 应 用 中 ， 疏 虫 的 强大 功能 ， 将 疏 虫 部 署 到 Scrapinghub 云 服务 恬 ， 
Scrapy 的 配置 与 管理 ，Scrapy 编 程 ， 管 道 秘 记 ， 理 解 Scrapy 性 能 ， 使 用 
Scrapyd 与 实时 分 析 进 行 分 布 式 疏 取 。 本 书 附录 还 提供 了 各 种 必 备 软件 
的 安装 与 故障 排除 等 内 容 。 


本 书 适 合 软件 开发 人 员 、 数 据 科学 家 ， 以 及 对 目 然 语言 处 理 和 机 
亏 学 习 感 兴趣 的 人 阅读 。 
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读者 讲授 如 何 编写 优秀 的 软件 。 


他 学 习 并 掌握 了 多 | ] 学 科 ， 包 括 数学 、 物 理学 以 及 微 电 子 学 。 他 
对 这 些 学 科 的 透彻 理解 ， 提 高 了 目 吴 的 标准 ， 而 不 只 是 “实用 的 解决 方 
案 ”。 他 知道 真正 的 解决 方案 应 当 十 像 物理 学 规律 一 样 确定 ， 像 ECC 内 
存 一 样 健壮 ， 像 数学 一 样 通用 。 


Dimitrios 目 前 正在 使 用 最 新 的 数据 中 心 技 术 开 发 低 延 到 、 高 可 用 
的 分 布 式 系统 。 他 走 语言 无 关 论 者 ， 不 过 对 Python 、C++ 和 Java 略 有 仿 
好 。 他 对 开源 软 硬 件 有 着 坚定 的 信念 ， 他 希望 他 的 页 献 能 够 造福 于 各 
个 社区 和 全 人 类 。 


关于 审 稿 人 


Lazar Telebak 是 一 位 自由 的 Web 开 发 人 员 ， 专 注 于 使 用 Python 库 / 
框架 进行 网 络 爬 取 和 对 网 页 进行 索引 。 


他 主要 从 事 于 处 理 自动 化 和 网 站 扑 取 以 及 导出 数据 到 不 同 格式 
(包括 CSV、JSON、XML 和 TXT) 和 数据 库 (如 MongoDB、 
SQLAlchemy 和 和 Postgres) 的 项 目 。 


他 还 拥有 前 端 技 术 和 语言 的 经 验 ， 包 括 HTML、CSS、JS 和 
jQuery ° 


La 
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Tilt 


让 我 来 做 一 个 大 胆 的 猜测 。 下 面 的 两 个 故事 之 一 会 和 你 的 经 历 有 
些 相 似 。 


你 与 Scrapy 的 第 一 次 相遇 是 在 网 上 搜索 类 似 “Web scraping 

Python 的 内 容 时 。 你 快速 对 其 进行 了 浏览 ， 然 后 想 “ 这 太 复 杂 了 

吧 ..….. 我 只 需要 一 些 简单 的 东西 。” 接 下 来 ， 你 使 用 Requests 库 开发 了 
一 个 Python 脚本 ， 并 且 振 扎 于 Beautiful Soup 中 ， 但 最 终 还 是 完成 了 很 
酷 的 工作 。 它 有 些 慢 ， 所 以 你 让 它 整 夜 运行 。 你 重新 启动 了 几 次 ， 名 
略 了 一 些 不 完整 的 链接 和 非 英 文字 符 ， 到 早上 的 时 候 ， 大 部 分 网 站 已 
经 “骄傲 地 ”存在 你 的 硬盘 中 了 。 然 而 难过 的 是 ， 不 知 什么 原因 ， 你 不 
想 再 看 到 目 己 写 的 代码 。 当 你 下 一 次 再 想 抓 取 某 些 东 西 时 ， 则 会 直接 
前 往 scrapy.org， 而 这 一 次 文档 给 了 你 很 好 的 印象 。 现 在 你 可 以 感受 到 
Scrapy 能 够 以 优雅 旦 轻松 的 方式 解决 了 你 面临 的 所 有 问题 ， 甚 至 还 考 
虑 到 了 你 没有 想到 的 问题 。 你 不 会 再 回头 了 。 


另 一 种 情况 是 ， 你 与 Scrapy 的 第 一 次 相遇 是 在 进行 网 络 疏 取 项 目 
的 研究 时 。 你 需要 的 是 健壮 、 快 速 的 企业 级 应 用 ， 而 大 部 分 花哨 的 一 
键 式 网 络 息 取 工具 无 法 满足 需求 。 你 希望 它 人 简单， 但 义 有 足够 的 灵活 
性 ， 能 够 让 你 为 不 同 源 定制 不 同 的 行为 ， 提 供 不 同 的 输出 类 型 ， 并 且 
能 够 以 目 动 化 的 形式 保证 24/7 可 靠 运行 。 提 供 谎 取 服务 的 公司 似乎 太 
贵 了 ， 你 觉得 使 用 开源 解决 方案 比 固 定 供应 商 更 加 舒服 。 从 一 开始 ， 
Scrapy 驶 像 一 个 确定 的 顾家 。 


无 论 你 是 出 于 何 种 目的 选择 了 本 书 ， 我 都 很 高 兴 能 够 在 这 本 专注 
于 Scrapy 的 图 书 中 遇 到 你 。Scrapy 是 全 世界 爬虫 专家 的 秘密 。 他 们 知 
道 如 何 使 用 它 以 节省 工作 时 间 ， 提 供出 色 的 性 能 ， 并 且 使 他 们 的 主机 
费用 达到 最 低 限 度 。 如 采 你 没有 太 多 经 难 ， 但 是 还 想 实现 同样 的 结 
条， 那么 很 不 往 的 是 ，Google 并 没有 能 够 帮 到 你 。 网 络 上 大 多 数 
Scrapy 信 息 要 么 太 人 简单 低 效 ， 要 么 太 复杂 。 对 于 那些 想 要 了 解 如 何 充 
分 利用 Scrapy 找 到 准确 、 易 理解 且 组 织 恨 好 的 信息 的 人 们 来 说 ， 本 书 
是 非常 有 必要 的 。 我 硕 望 本 书 能 够 帮助 Scrapy 社 区 进一步 发 展 ， 并 使 
其 得 以 广泛 应 用 。 


本 书 内 容 


第 1 章 ，Scrapy 简 介 ， 介 绍 本 书 和 Scrapy， 可 以 让 你 对 该 框架 及 本 
书 剩 余部 分 有 一 个 明确 的 期 望 。 


第 2 章 ， 理 解 HTML 和 XPath ， 则 在 使 仆 虫 初学 者 能 够 快速 了 解 
Web 相 关 技 术 以 及 我 们 后 续 将 会 使 用 的 技巧 。 


第 3 章 ， 扑 虫 基础 ， 介 绍 了 如 何 安 装 Scrapy， 并 扑 取 一 个 网 站 。 我 
们 通过 回 你 展示 每 一 个 行动 背后 的 方法 和 思路 ， 逐 步 开 发 该 示例 。 学 
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方面 所 市 来 的 好 处 。 


Fon, MERERI, ， 展 示 了 更 强大 的 聆 虫 功能 ， 包 括 登 
录 、 更 快速 地 抓 取 、 消 费 API 以 及 扑 取 URL 列 表 。 


第 6 章 ， 部 署 到 Scrapinghub ， 展 示 了 如 何 将 息 虫 部 署 到 
Scrapinghub 的 云 服 务 絮 中 ， 并 至 受 其 带 来 的 可 用 性 、 易 部 署 以 及 可 控 


性 等 特性 。 


第 7 章 ， 配 置 与 管理 ， 以 组 织 良 好 的 表现 形式 介绍 了 大 量 的 Scrapy 
功能 ， 这 些 功能 可 以 通过 Scrapy 配 置 启 用 或 调整 。 


第 8 章 ，Scrapy 编 程 ， 通 过 展示 如 何 使 用 底层 的 Twisted 引 警 和 
Scrapy 染 构 对 其 功能 的 各 个 方面 进行 扩展 ， 将 我 们 的 知识 带 入 一 个 全 
新 的 水 平 。 


Bom, SBR, ， 提 供 了 许多 示例 ， 在 这 里 我 们 修改 了 Scrapy 的 
一 些 功能 ， 在 不 会 造成 性 能 退化 的 情况 下 ， 将 数据 插入 到 数据 库 〈 比 
如 MySQL、Elasticsearch 及 Redis) 、 接 口 API， 以 及 遗留 应 用 中 。 


第 10 章 ， 理 解 Scrapy 性 能 ， 将 帮助 我 们 理解 Scrapy 的 时 间 是 如 何 
化 费 的 ， 以 及 我 们 需要 怎么 做 来 提升 其 性 能 。 


第 11 章 ， 使 用 Scrapyd 与 实时 分 析 进 行 分 布 式 聆 取 ， 这 是 本 书 最 
后 一 章 ， 展 示 了 如 何在 多 台 服 务 属 中 使 用 Scrapyd 实 现 横 辐 扩展 ， 以 及 
如 何 将 息 取 得 到 的 数据 提供 给 Apache Spark 服 务 絮 以 执行 数据 流 分 
析 。 


阅读 本 书 的 前 提 


为 了 使 本 书 代码 和 内 容 的 受众 尽 可 能 广泛 ， 我 们 付出 了 大 量 的 努 
力 。 我 们 希望 提供 涉及 多 服务 器 和 数据 库 的 有 趣 示例 ， 不 过 我 们 并 不 
希望 你 必须 完全 了 解 如 何 创 建 它 们 。 我 们 使 用 了 一 个 称 为 Vagrant 的 伟 
大 技术 ， 用 于 在 你 的 计算 机 中 目 动 下 载 和 创建 一 次 性 的 多 服务 器 环 
境 。 我 们 的 Vagrant 配 置 在 Mac OS X 和 Windows 上 时 使 用 了 虚拟 机 ， 而 
在 Linux 上 则 是 原生 运行 。 


对 于 Windows 和 Mac OS X， 你 需要 一 个 支持 Intel 或 AMD 虚 拟 化 技 
术 (VT-x 或 AMD-v) 的 64 位 计算 机 。 大 多 数 现代 计算 机 都 没有 问题 。 
对 于 大 部 分 革 市 来 说 ， 你 还 需要 专门 为 虚拟 机 准备 1GB 内 存 ， 不 过 在 
第 9 草 和 第 11 章 中 则 需要 2GB 内 存 。 附 孙 A 讲 解 了 安装 必要 软件 的 所 有 
HTT ° 


Scrapy 本 里 对 人 硬件 和 软件 的 需求 更 加 有 限 。 如 果 你 是 一 位 有 经 验 
的 读者 ， 并 且 不 想 使 用 Vagrant， 也 可 以 根据 第 3 章 的 内 容 在 任何 操作 
系统 中 安装 Scrapy， 即 使 其 内 存 十 分 有 限 。 


当 你 成 功 创建 Vagrant 环 境 后 ， 无 需 网 络 连 接 ， 就 可 以 运行 本 书 几 
乎 全 部 示例 了 《第 4 章 和 第 6 章 的 示例 除外 ) 。 是 的 ， 你 可 以 在 航班 上 
阅读 本 书 了 。 
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。 需 要 源 数据 驱动 应 用 的 互联 网 创业 者 ; 


需要 抽取 数据 进行 分 析 或 训练 模型 的 数据 科学 家 与 机 融 学 习 从 业 
者 ; 

。 需要 开发 大 规模 爬虫 基础 杂 构 的 软件 工程 师 ; 

想 要 为 其 下 一 个 很 酷 的 项 目 在 树 每 派 上 运行 Scrapy 的 爱好 者 。 


束 必 备 知 识 而 言 ， 阅 读本 书 只 需要 用 到 很 少 的 部 分 。 在 最 开始 的 
几 间 中 ， 本 书 为 那些 几乎 没有 有 候 虫 经 验 的 读者 提供 了 网 络 搁 术 和 扑 虫 
的 基础 知识 。Python 易 于 阅读 ， 对 于 有 其 他 编程 语言 基本 经 验 的 任何 
读者 来 说 ， 与 取 虫 相关 的 章节 中 给 出 的 大 部 分 代码 都 很 易于 理解 。 


坦率 地 说 ， 我 相信 如 果 一 个 人 在 心中 有 一 个 项 目 ， 并 且 想 使 用 
Scrapy 的 话 ， 他 就 能 够 修改 本 书 中 的 示例 代码 ， 并 在 几 个 小 时 之 内 民 
好 地 运行 起 来 ， 即 使 这 个 人 之 前 没有 让 虫 、Scrapy 或 Python 经 难 。 


在 本 书 的 后 半 部 分 中 ， 我 们 将 变 得 更 加 依赖 于 Python， 此 时 初学 
者 可 能 希望 在 进一步 研究 之 前 ， 先 让 目 己 用 几 个 星期 的 时 间 丰 富 
Scrapy 的 基础 经 验 。 此 时 ， 更 有 经 验 的 Python/Scrapy 开 发 者 将 学 习 使 
用 Twisted 进 行事 件 驱 动 的 Python 开 发 ， 以 及 非常 有 趣 的 Scrapy 内 部 知 
识 。 在 性 能 章 广 ， 一 些 数 学 知识 可 能 会 有 用 处 ， 不 过 即使 没有 ， 大 多 
数 图 表 也 能 给 我 们 清晰 的 感受 。 


第 1 章 Scrapy 人 简介 


欢迎 来 到 你 的 Scrapy 之 旅 。 通 过 本 书 ， 我 们 旨 在 将 你 从 一 个 只 有 
很 少 经 验 綦 至 没有 经 验 的 Scrapy 初 学 者 ， 打 造成 拥有 信心 使 用 这 个 强 
大 的 框架 从 网 络 或 者 其 他 源 仆 取 大 数据 集 的 Scrapy 专 家 。 本章 将 介绍 
Scrapy， 并 且 告 诉 你 一 些 可 以 用 它 实 现 的 很 棒 的 事情 。 


1.1 初 识 Scrapy 


Scrapy 古 一 个 健壮 的 网 络 框 架 ， 它 可 以 从 各 种 数据 产 中 抓 取 数 
据 。 作 为 一 个 普通 的 网 络 用 户 ， 你 会 发 现 目 己 经 稼 需要 从 网 站 上 获取 
数据 ， 使 用 类 似 Excel 的 电子 表格 程序 进行 浏览 参见 第 3 章 ) ， 以 便 
离线 访问 数据 或 者 执行 计算 。 而 作为 一 个 开发 者 ， 你 需要 经 向 整 合 多 
个 数据 源 的 数据 ， 但 又 十 分 清楚 获得 和 抽取 数据 的 复杂 性 。 无 论 难 
易 ，Scrapy 都 可 以 帮助 你 完成 数据 抽取 的 行动 。 


以 健壮 而 又 有 效 的 方式 抽取 大 量 数据 ，Scrapy 已 经 拥有 了 多 年 经 
验 。 使 用 Scrapy， 你 只 需 一 个 简单 的 设置 ， 束 能 完成 其 他 仆 虫 框架 中 
需要 很 多 类 、 插 件 和 配置 项 才能 完成 的 工作 。 人 快速 浏览 第 7 章 ， 你 束 能 
体会 到 通过 简单 的 儿 行 配 置 ，Scrapy 可 以 实现 多 少 功 能 。 


从 开发 者 的 角度 来 说 ， 你 也 会 十 分 欣赏 Scrapy 的 基于 事件 的 架构 
(我 们 将 在 第 8 章 和 第 9 章 中 对 其 进行 深入 探讨 ) 。 它 允许 我 们 将 数据 
清洗 、 格 式 化 、 北 师 以 及 将 这 些 数 据 存储 到 数据 库 中 等 操作 级 联 起 


来 ， 只 要 我 们 操作 得 当 ， 性 能 降低 就 会 很 小 。 在 本 书 中 ， 你 将 学 会 怎 
样 可 以 达到 这 一 目的 。 从 技术 上 讲 ， 由 于 Scrapy 是 基于 事件 的 ， 这 就 
能 够 让 我 们 在 拥有 上 千 个 打开 的 连接 时 ， 可 以 通过 平稳 的 操作 拆 分 吞 
吐 量 的 延迟 。 来 看 这 样 一 个 极端 的 例子 ， 假 设 你 需要 从 一 个 拥有 汇总 
页 的 网 站 中 抽取 房 源 ， 其 中 每 个 汇总 页 包含 100 个 房 源 。Scrapy 可 以 非 
常 轻松 地 在 该 网 站 中 并 行 执 行 16 个 请 求 ， 假 设 完成 一 个 请 求 平 均 需 要 
花费 1 秒 钟 的 时 间 ， 你 可 以 每 秒 叹 取 16 个 页 面 。 如 果 将 其 与 每 页 的 房 源 
数 相 乘 ， 可 以 得 出 每 秒 将 产生 1600 个 房 源 。 想 象 一 下 ， 如 果 每 个 房 源 
都 必须 在 大 规模 并 行 云 存 储 当 中 执行 一 次 写 入 ， 每 次 写 入 平均 需要 耗 
费 3 秒 钟 的 时 间 (非常 差 的 主意 ) 。 为 了 文 持 每 秒 16 个 请 求 的 吞吐 量 ， 
就 需要 我 们 并 行 运行 1600 x 3 = 4800 次 写 入 请 求 (你 将 在 第 9 章 中 看 到 
很 多 这 样 有 趣 的 计算 ) 。 对 于 一 个 传统 的 多 线程 应 用 而 言 ， 则 需要 转 
变 为 4800 个 线程 ， 无 论 是 对 你 ， 还 是 对 操作 系统 来 说 ， 这 都 会 是 一 个 
非常 糟糕 的 体验 。 而 在 Scrapy 的 世界 中 ， 只 要 操作 系统 没有 问题 ， 
4800 个 并 发 请 求 就 能 够 处 理 。 此 外 ，Scrapy 的 内 存 需求 和 你 需要 的 房 
源 数 据 量 很 接近 ， 而 对 于 多 线程 应 用 而 言 ， 则 需要 为 每 个 线程 增加 与 
房 源 大 小 相 比 十 分 明显 的 开销 。 


简 而 言 之 ， 绥 慢 或 不 可 预测 的 网 站 、 数 据 库 或 远程 A 都 不 会 对 
Scrapy 的 性 能 产生 上 毁灭 性 的 结果 ， 因 为 你 可 以 并 行 运 行 多 个 请 求 ， 并 
通过 单一 线程 来 管理 它们 。 这 意味 着 更 低 的 主机 托管 费用 ， 与 其 他 应 
用 的 协作 机 会 ， 以 及 相 比 于 传统 多 线程 应 用 而 言 更 简单 的 代码 (无 同 
步 需求 ) 。 


1.2 ”喜欢 Scrapy 的 更 多 理由 


Scrapy 已 经 拥有 超过 5 年 的 历史 了 ， 成 熟 而 又 稳定 。 除 了 上 一 节 中 
提 到 的 性 能 优势 外 ， 还 有 下 面 这 些 能 够 让 你 爱 上 Scrapy 的 理由 。 


。 Scrapy 能 够 识别 残缺 的 HTML 


你 可 以 在 Scrapy 中 直接 使 用 Beautiful Soup 或 lxml， 不 过 Scrapy 还 提 
供 了 一 种 在 lxml 之 上 更 高 级 的 XPath (主要 ) 接口 
够 更 高 效 地 处理 残 缺 的 HTML 代 码 和 混乱 的 编码 。 


Poo 
selectors ° ŻE 


。 社区 


Scrapy 拥 有 一 个 充满 活力 的 社区 。 只 需要 看 看 https://groups. 
google.com/ forum/#!forum/scrapy-users 上 的 邮件 列表 ， 以 及 Stack 
Overflow 网 站 (http:// stackoverflow.com/questions/tagged/ scrapy) 中 的 
上 千 个 问题 就 可 以 知道 了 。 大 部 分 问题 都 能 够 在 几 分 钟 内 得 到 回应 。 
更 多 社区 资源 可 以 从 http://scrapy.org/ community/ 中 获取 到 。 


。 社 区 维护 的 组 织 民 好 的 代码 


Scrapy 要 求 以 一 种 标准 方式 组 织 你 的 代码 。 你 只 需 编 写 被 称 为 候 
虫 和 管道 的 少量 Python 模块 ， 并 且 还 会 目 动 从 引擎 目 身 获取 到 未 来 的 
任何 改进 。 如 采 你 在 网 上 搜索 ， 可 以 发 现 有 相当 多 专业 人 士 拥有 
Scrapy 经 验 。 也 束 是 说 ， 你 可 以 很 容易 地 找到 人 来 维护 或 扩展 你 的 代 
码 。 无 论 是 谁 加 入 你 的 团队 ， 都 不 需要 漫长 的 学 习 曲 线 ， 来 理解 你 的 
目 定 义 息 虫 中 的 特别 之 处 。 


© 越 来 越 多 的 高 质量 功能 


如 果 你 快速 浏览 发 布 日 志 (http://doc.scrapy.org/en/latest/ 
news.html) ， 就 会 注意 到 无 论 是 在 功能 上 ， 还 是 在 稳定 性 /bug 修 复 
上 ，Scrapy 都 在 不 断 地 成 长 。 


13 关于 本 书 : 目标 和 用 途 


在 本 书 中 ， 我 们 的 目标 是 通过 重点 示例 和 真实 数据 集 教 你 使 用 
Scrapy。 大 部 分 章 世 将 专注 于 疏 取 一 个 示例 的 房屋 租赁 网站。 我们 选 
择 这 个 例子 ， 是 因为 它 能 够 代表 大 多 数 的 网 站 压 取 项 目 ， 既 能 让 我 们 
介绍 感 兴趣 的 变动 ， 又 不 失 人 简单 。 以 该 示例 为 主题 ， 可 以 帮助 我 们 聚 
焦 于 Scrapy， 而 不 会 分 心 。 


我 们 将 从 只 运行 几 百 个 页 面 的 小 谎 虫 开始 ， 最 终 在 第 11 章 中 使 用 
几 分 钟 的 时 间 ， 将 其 扩展 为 能 够 处 理 5 万 个 页 面 的 分 布 式 疏 虫 。 在 这 个 
过 程 中 ， 我 们 将 辣 你 介绍 如 何 将 Scrapy 与 MySQL、Redis 和 
Elasticsearch 等 服务 相连 接 ， 使 用 Google 的 地 理 编码 API 找 到 我 们 示例 
属性 中 的 位 置 坐标 ， 以 及 加 Apache Spark 提 供 数据 用 于 预测 最 影响 房 
价 的 关键 词 。 


你 需要 做 好 阅读 本 书 多 次 的 准备 。 你 可 能 需要 从 略 读 开始 ， 先 理 
解 其 架构 。 然 后 阅读 一 到 两 章 ， 仔 细 学 习 、 实 验 一 段 时 间 ， 再 进入 后 
面 的 曹 市。 如 采 你 觉得 目 己 已 经 涩 悉 了 某 一 革 的 内 容 ， 那 么 跳 过 这 一 
划 也 无 需 担 心 。 尤 其 古 如 果 你 已 经 7 了解 HTML 和 XPath， 那 么 就 没 有 必 
要 人 花费 太 多 时 间 在 第 2? 草 上 面 了 。 不 用 担心 ， 对 你 来 说 本 书 还 有 很 多 需 
要 学 习 的 内 容 。 一 些 章 节 ， 比 如 第 8 章 ， 将 参考 书 和 教程 的 元 素 结合 起 
来 ， 深 入 编程 概念 。 这 惑 是 一 个 例子 ， 我 们 可 能 会 阅读 某 一 章 几 次 ， 


在 这 中 间 人 允许 我 们 有 几 个 星期 的 时 间 实 践 Scrapy。 你 在 继续 阅读 后 续 
的 草 方 ， 比 如 以 应 用 为 主 的 第 9 草 之 前 ， 不 需要 完 类 掌握 第 8 草 中 的 内 
容 。 阅 读 后 续 的 内 容 ， 有 助 于 你 理解 如 何 使 用 编程 概念 ， 如 有 果 你 愿意 
的 话 ， 可 以 回 过 头 来 反复 阅读 几 次 。 


为 使 本 书 既 有 趣 ， 又 对 初学 者 友好 ， 我 们 已 经 试图 做 了 平衡 。 不 
过 我 们 不 会 做 的 一 件 事情 是 ， 在 本 书 中 教授 Python。 对 于 这 一 主题 ， 
目前 已 经 有 了 很 多 优秀 的 书籍 ， 不 过 我 更 加 建议 的 是 以 一 种 轻松 的 心 
仿 来 学 习 。Python 如 此 流行 的 一 个 理由 是 因为 它 比 较 人 简单、 整洁 ， 并 
且 阅 读 起 来 更 近似 于 英文 。Scrapy 是 一 个 高 级 框架 ， 无 论 是 初学 者 还 
是 专家 ， 都 需要 学 习 。 你 可 以 将 其 称 之 为 “Scrapy 语 言 "。 因此 ， 我 会 
推荐 你 通过 材料 来 学 习 Python， 如 果 你 发 觉 上 自己 对 于 Python 的 语法 比 
较 迷 惑 ， 那 么 可 以 通过 一 些 Python 的 在 线 教 程 或 Coursera 等 为 Python 初 
学 者 开设 的 免费 在 线 课程 子 以 补充 。 请 放心 ， 即 使 你 不 是 Python 专 
家 ， 也 能 够 成 为 一 名 优秀 的 Scrapy 开 发 者 。 


14 Seats RRB Be 


对 于 大 多 数 人 来 说 ， 掌 握 一 门 像 Scrapy 这 样 很 酯 的 技术 所 市 来 的 
好 奇 心 和 精神 上 的 满足 ， 足 以 油 励 我 们 。 令 人 惊喜 的 是 ， 在 学 习 这 个 
优秀 框架 的 同时 ， 我 们 还 能 至 受到 开发 过 程 始 于 数据 和 人 社区， 而 不 是 
代码 所 市 来 的 好 处 。 


141 开发 健壮 且 高 质量 的 应 用 ， 并 提供 合理 规划 


为 了 开发 现代 化 的 高 质量 应 用 ， 我 们 需要 真实 的 大 数据 集 ， 如 采 
可 能 的 话 ， 在 开始 动手 写 代码 之 前 束 应 该 进行 这 一 步 。 现 代 化 软件 开 
发 束 是 实时 处 理 大 量 不 完 赦 数据 ， 并 从 中 提取 出 知识 和 有 价值 的 情 
报 。 当 我 们 开发 软件 并 应 用 于 大 数据 集 时 ， 一 些小 的 错误 和 朴 忽 难以 
被 检 测 出 来 ， 束 有 可 能 导致 昂 贯 的 错误 决策 。 比 如 ， 在 做 人 口 统计 学 
研究 时 ， 很 容易 发 生 仅 仅 是 由 于 州 名 过 长 导致 数据 被 默认 丢弃 ， 造 成 
整个 州 的 数据 被 忽视 的 错误 。 在 开发 阶段 ， 甚 至 更 早 的 设计 探索 阶 
段 ， 通 过 细心 抓 取 ， 并 使 用 具有 生产 质量 的 真实 世界 大 数据 集 ， 可 以 
帮助 我 们 发 现 和 修复 错误 ， 做 出 明智 的 工程 决策 。 


另外 一 个 例子 是 ， 假 设 你 想 要 设计 Amazon 风 格 的 “如 果 你 喜欢 这 
个 商品 ， 也 可 能 喜欢 那个 商品 ”的 推荐 系统 。 如 有 果 你 能 够 在 开始 之 前 ， 
先 疏 到 并 收集 真实 世界 的 数据 集 ， 吏 会 很 快意 识 到 有 头 无 效 条 目 、 停 
产 商品 、 重 复 、 无 效 字 符 以 及 偶 仿 分 布 引起 的 性 能 瓶颈 等 问题 。 这 些 
数据 将 会 强迫 你 设计 足够 健壮 的 算法 ， 无 论 是 数 千 人 购买 过 的 商品 ， 
还 是 零 销 售 量 的 新 条 目 ， 都 能 够 很 好 地 处 理 。 而 孤立 的 软件 开发 ， 可 
能 会 在 儿 个 星期 的 开发 之 后 ， 也 要 面 对 这 些 丑 陋 的 真实 世界 数据 。 虽 
然 这 两 种 方法 最 终 可 能 会 收敛 ， 但 是 为 你 提供 进度 预 估 承诺 的 能 力 以 
及 软件 的 质量 ， 痢 将 随 着 项 目 进 展 而 产生 显著 巷 别 。 从 数据 开始 ， 能 
够 市 给 我 们 更 加 愉悦 并 且 可 预测 的 软件 开发 体验 。 


1.4.2 ”快速 开发 高 质量 最 小 可 行 产 品 


对 于 初创 公司 而 言 ， 大 规模 真实 数据 的 集 甚至 更 加 必要 。 你 可 能 
听 说 过 “精益 创业 *"， 这 是 由 Eric Ries 创造 的 一 个 术语 ， 用 于 描述 类 似 
技术 初创 公司 这 样 极 端 不 确定 条 件 下 的 业务 发 展 过 程 。 该 框架 的 一 个 


关键 概念 是 最 小 可 行 产 品 (Minimum Viable Product, MVP) ,这 
种 产品 只 有 有 限 的 功能 ， 可 以 被 快速 开发 并 向 有 限 的 客户 发 布 ， 用 于 
测试 反 啊 及 验证 业务 假设 。 基 于 获得 的 反馈 ， 初 创 公 司 可 能 会 选择 继 
续 更 进一步 的 投资 ,也 可 能 是 转 同 其 他 更 有 前 景 的 方向 。 


在 该 过 程 中 的 某 些 方面 ， 很 容易 忽视 与 数据 紧密 连接 的 问题 ， 这 
正 是 Scrapy 所 能 为 我 们 做 的 部 分 。 比 如 ， 当 邀请 潜在 的 客户 党 试 使 用 
我 们 的 手机 应 用 时 ， 作 为 开发 者 或 企业 主 ， 会 要 求 他 们 评判 这 些 功 
能 ， 想 象 应 用 在 完成 时 看 起 来 应 该 如 何 。 对 于 这 些 并 非 专家 的 人 而 
言 ， 这 里 需要 的 想象 有 可 能 太 多 了 。 这 个 差距 相当 于 一 个 应 用 只 展示 
了 “产品 1*、“ 产 品 2*、“ 用 户 433”， 而 男 一 个 应 用 提供 了 “三 星 
UN55J6200 55 英 寸 电 视 机 ”、 FP “Richard S” 给 出 了 五 星 好 评 以 及 能 够 
让 你 直达 产品 详情 页 面 (尽管 事实 上 我 们 还 没有 写 这 个 页 面 ) 的 有 效 
链接 等 诸多 信息 。 人 们 很 难 客观 判断 一 个 MVP 产 品 的 功能 性 ， 除 非 使 
用 了 真实 旦 令 人 兴奋 的 数据 。 


一 些 初 创 企业 将 数据 作为 事后 考虑 的 原因 之 一 是 认为 收集 这 些 数 
据 需 要 遇 贯 的 代价 。 的 确 ， 我 们 通常 需要 开发 表单 及 管理 界面 ， 并 人 花 
费时 间 孙 入 数据 ， 但 我 们 也 可 以 在 编写 代码 之 前 使 用 Scrapy 讨 取 一 些 
网 站 。 在 第 4 章 中 ， 你 可 以 看 到 一 旦 拥有 了 数据 ， 开 发 一 个 简单 的 手机 
应 用 会 有 多 么 容易 。 


1.4.3 ”Google 不 会 使 用 表单 ， 扑 取 才 能 扩大 规模 


当 谈 及 表单 时 ， 让 我 们 来 看 下 它 征 如 何 影 响 产 品 增长 的 。 想 象 一 
下 ， 如 果 Google 的 创始 人 在 创建 其 引擎 的 第 一 个 版 本 时 ， 包 含 了 一 个 
每 名 网 站 管理 员 都 需要 填写 的 表单 ， 要 求 他 们 把 网 站 中 每 一 页 的 文字 


都 复制 烙 贴 过 来 。 然 后 ， 他 们 需要 接受 许可 协议 ， 人 允许 Google 处 理 、 
存储 和 展示 他 们 的 内 容 ， 并 剔除 大 部 分 广告 利润 。 你 能 想象 解释 该 想 
法 并 说 服 人 们 参与 这 一 过 程 所 需 伦 费 的 时 间 和 精力 会 有 多 大 吗 ? 即使 
市 场 非常 渔 望 一 个 优秀 的 搜索 引擎 《事实 正 是 如 此 ) ， 这 个 引擎 也 不 
会 是 Google， 因 为 它 的 增长 过 于 缓慢 。 即 使 是 最 复杂 的 算法 ， 也 不 能 
弥补 数据 的 缺失 。Google 使 用 网 络 聆 虫 技术 ， 在 页 面 间 跳 转 链 接 ， 填 
充 其 庞大 的 数据 库 。 网 站 管理 员 则 不 需要 做 任何 事情 。 实 际 上 ， 反 而 
还 需要 一 些 努 力 才能 阻止 Google 索 引 你 的 页 面 。 


虽然 Google 使 用 表单 的 想法 听 起 来 有 些 项 次， 但 是 一 个 典型 的 网 
站 需要 用 户 填写 多 少 表单 呢 ? ERRE ` PARRE ` ARE, 
等 。 这 些 表单 中 有 多 少 会 阻碍 应 用 增长 呢 ? 如 果 你 充分 了 解 你 的 受众 / 
客户 ， 很 可 能 已 经 拥有 关于 他 们 通常 使 用 并 且 很 可 能 已 经 有 账号 的 其 
他 网 站 的 线索 了 。 比 如 ， 一 个 开发 者 很 可 能 拥有 Stack Overflow 和 
GitHub 的 账号 。 那 么 ， 在 获得 他 们 允许 的 情况 下 ， 你 十 否 能 够 抓 取 这 
些 丫 点， 只 需 他 们 提供 给 你 用 户 名 ， 束 能 目 动 填充 照片 、 人 简介 和 一 小 
部 分 近期 文章 呢 ? 你 能 否 对 他 们 最 感 兴趣 的 一 些 文章 进行 快速 文本 分 
析 ， 并 根据 其 调整 网 站 的 导航 结构 ， 以 及 建议 的 产品 和 服务 呢 ? 我 希 
望 你 能 够 看 到 如 何 使 用 目 动 化 数据 抓 取 和 替代 表单 ， 从 而 更 好 地 服务 你 
的 受众 ， 增 长 网 站 规模 。 


1.4.4 “发现 并 融入 你 的 生态 系统 


抓 取 数据 目 然 会 让 你 发 现 并 考虑 与 你 付出 相关 的 社区 的 关系 。 当 
你 抓 取 一 个 数据 源 时 ， 很 目 然 地 束 会 产生 一 些 问题 ， 我 是 否 相 信 他 们 
的 数据 ?我 是 否 相信 获取 数据 的 公司 ? 我 是 否 需要 和 他 们 沟通 以 获得 


更 正式 的 合作 ? 我 和 他 们 是 竞争 关系 还 是 合作 关系 ? 从 其 他 源 获得 这 
些 数 据 会 化 费 我 多 少 钱 ? 无 论 如 何 ， 这 些 商业 风险 都 是 存在 的 ， 不 过 
抓 取 过 程 可 以 帮助 我 们 尽早 意识 到 这 些 风险 ， 并 制定 出 缓解 策略 。 


你 还 会 发 现 目 己 想 知道 能 够 为 这 些 网 站 和 社区 市 来 的 回 疆 是 什 
么 。 如 采 你 能 够 给 他 们 市 来 免费 的 流量 ， 他 们 应 该 会 很 高 兴 。 另 一 方 
面 ， 如 有 果 你 的 应 用 不 能 给 你 的 数据 源 冲 来 一 些 价 值 ， 那 么 你 们 的 关系 
可 能 会 很 短暂 ， 除 非 你 与 他 们 沟通 ， 并 找到 合作 的 方式 。 通 过 从 不 同 
源 获取 数据 ， 你 需要 准备 好 开发 对 现 有 生态 系统 更 友好 的 产品 ， 充 分 
尊重 已 有 的 市 场 参 与 者 ， 只 有 在 值得 努力 时 才 可 以 去 破坏 当前 的 市 场 
秩序 。 现 有 的 参与 者 也 可 能 会 帮助 你 成 长 得 更 快 ， 比 如 你 有 一 个 应 
用 ,使 用 两 到 三 个 不 同 生 态 系 统 的 数据 ， 每 个 生态 系统 有 10 万 个 用 
尸 ， 你 的 服务 可 能 最 终 将 这 30 万 个 用 户 以 一 种 创造 性 的 方式 连接 起 
来 ， 从 而 使 每 个 生态 系统 都 获 共 。 例 如 ， 你 成 立 了 一 个 初创 公司 ， 将 
揪 深 乐 与 T 恤 印花 社区 关联 起 来 ， 你 的 公司 最 终 将 成 为 两 种 生态 系统 
的 融合 ， 你 和 相应 的 社区 都 将 从 中 获 益 并 得 以 成 长 。 


15 ”在 充满 候 虫 的 世界 里 做 一 个 好 公民 
当 开 发 慌 虫 时 ， 还 有 一 些 事情 需要 清楚 。 不 负责 任 的 网 络 疏 虫 会 


令 人 不 悦 ， 甚 至 在 茶 些 情况 下 是 违法 的 。 有 两 个 非常 重要 的 事情 是 避 
免 类 似 拒绝 服务 (DoS) 攻击 的 行为 以 及 侵犯 版 权 。 


对 于 第 一 种 情况 ， 一 个 典型 的 访问 者 可 能 每 几 秒 访问 一 个 新 的 页 
面 。 而 一 个 典型 的 网 络 息 虫 则 可 能 每 秒 下 载 数 十 个 页 面 。 这 样 环比 典 
型 用 户 产 生 的 流量 多 出 了 10 倍 以 上 。 这 可 能 会 使 网 站 所 有 者 非常 不 高 


兴 。 请 使 用 流量 限 速 将 你 产生 的 流量 减少 到 可 以 接受 的 普通 用 户 的 水 
平 。 此 外 ， 还 应 该 监控 响应 时 间 ， 如 果 发 现 响应 时 间 增加 了 ， 就 需要 
降低 息 虫 的 强度 。 好 消息 是 Scrapy 对 于 这 些 功能 都 提供 了 开 箱 即 用 的 
实现 (参见 第 7 章 ) 。 


对 于 版 权 问题 ， 显 然 你 需要 看 一 下 你 抓 取 的 每 个 网 站 的 版 权 声 

明 ， 并 确保 你 理解 其 介 许 做 什么 ， 不 允许 做 什么 。 大 多 数 网 站 都 允许 
你 处 理 其 站 点 的 信息 ， 只 要 不 以 目 己 的 名 义 重新 发 布 即 可 。 在 你 的 请 
求 中 ， 有 一 个 很 好 的 User -Agent 字段 ， 它 可 以 让 网 站 管理 员 知道 你 
是 谁 ， 你 用 他 们 的 数据 做 什么 。Scrapy 在 制造 请 求 时 ， 默 认 使 用 
BOT_NAME 参数 作为 User -Agent 。 如 果 User -Agent 是 一 个 URL 
或 者 能 够 指明 你 的 应 用 名 称 ， 那 么 网 站 管理 员 可 以 通过 访问 你 的 站 
点 ， 更 多 地 了 解 你 是 如 何 使 用 他 们 的 数据 的 。 另 一 个 非常 重要 的 方面 
是 ， 请 允许 任何 网 站 管理 员 阻 止 你 访问 其 网 站 的 指定 区 域 。 对 于 基于 
Web 标 准 的 robots .txt 文件 (参见 http://www.google.com/robots.txt 
的 文件 示例 ) ，Scrapy 提 供 了 用 于 体重 网 站 管理 员 设 置 的 功能 

(RobotsTxtMiddleware ) 。 最 后 ， 最 好 疝 网 站 管理 员 提 供 一 些 
方法 ， 主 他 们 能 说 明 不 硕 望 在 你 的 爬虫 中 出 现 的 东西 。 至 少 网 站 管理 
员 必 须 能 够 很 容易 地 找到 和 你 交流 及 表达 顾虑 的 方式 。 


1.6 ”Scrapy 不 是 什么 


最 后 ， 很 容易 误解 Scrapy 可 以 为 你 做 什么 ， 主 要 是 因为 数据 抓 取 
这 个 术语 与 其 相关 术语 有 些 模糊 ， 很 多 术语 是 交 蔡 使 用 的 。 我 将 壬 试 
使 这 些 方面 更 加 清楚 ， 以 防止 混淆 ， 为 你 节省 一 些 时 间 。 


Scrapy 不 是 Apache Nutch， 也 就 是 说 ， 它 不 是 一 个 通用 的 网 络 息 
虫 。 如 果 Scrapy 访 问 一 个 一 无 所 知 的 网 站 ， 它 将 无 法 做 出 任何 有 意义 
的 事情 。Scrapy 是 用 于 提取 结构 化 信息 的 ， 需 要 人 工 介 入 ， 设 置 合适 
的 XPath 或 CSS 表 达 式 。 而 Apache Nutch 则 是 获取 通用 页 面 并 从 中 提取 
言 上 息 ， 比 如 关键 字 。 它 可 能 更 适合 于 一 些 应 用 ， 但 对 男 一 些 应 用 则 叉 
更 不 适合 。 


Scrapy 不 是 Apache Solr、Elasticsearch 或 Lucene， 换 句 话说 ,就 是 
它 与 搜索 引擎 无 天。Scrapy 并 不 打算 为 你 提供 包含 "Einstein 或 其 他 单 
词 的 文档 的 参考 。 你 可 以 使 用 Scrapy 抽 取 数 据 ， 然 后 将 其 插入 到 Solr 或 
Elasticsearch 当 中 ， 我 们 会 在 第 9 草 的 开始 部 分 讲解 这 一 做 法 ， 不 过 这 
仅仅 是 使 用 Scrapy 的 一 个 方法 ， 而 不 是 藤 入 在 Scrapy 内 的 功能 。 


最 后 ，Scrapy 不 是 类 似 MySQL、MongoDB 或 Redis 的 数据 库 。 它 
既 不 存储 数据 ， 也 不 索引 数据 。 它 只 用 于 抽取 数据 。 即 便 如 此 ， 你 可 
能 会 将 Scrapy 抽 取得 到 的 数据 插入 到 数据 库 当 中 ， 而 且 它 对 很 多 数据 
库 也 都 有 所 支持 ， 能 够 让 你 的 生活 更 加 轻松 。 然 而 Scrapy 终 究 不 是 一 
个 数据 库 ， 其 输出 也 可 以 很 容易 地 更 改 为 只 是 磁盘 中 的 文件 ， 甚 至 什 
么 都 不 输出 一 一 虽然 我 不 确定 这 有 什么 用 。 


1.7 本 章 小 结 
本 章 介绍 了 Scrapy， 给 出 了 它 能 够 帮 你 做 什么 的 概述 ， 并 描述 了 


我 们 认为 的 使 用 本 书 的 正确 方式 。 本 章 还 提供 了 几 种 目 动 化 数据 抓 取 
的 方式 ， 通 过 帮 你 快速 开发 能 够 与 现 有 生态 系统 更 好 融合 的 高 质量 应 


用 而 获 益 。 下 一 章 将 介绍 HITML 和 XPath， 这 是 两 个 非常 重要 的 Web 语 
言 ， 我 们 在 每 个 Scrapy 项 目 中 都 将 用 到 它们 。 


第 2 章 ”理解 HTML 和 XPath 


为 了 从 网 页 中 抽取 信息 ， 你 必须 对 其 结构 有 更 多 了 解 。 我 们 将 快 
速 浏览 HTML、HTML 的 树 状 表示 ， 以 及 在 网 页 上 选取 信息 的 一 种 方 
式 XPath。 


2.1 HTML、DOM 树 表示 以 及 XPath 


让 我 们 花费 一 些 时 间 来 了 解 从 用 户 在 浏览 絮 中 输入 URL (或 者 更 
常见 的 是 ， 在 其 单 击 链接 或 书签 时 ) 到 屏幕 上 显示 出 页 面 的 过 程 。 从 
本 书 的 视角 来 看 ， 该 过 程 包含 4 个 步 又， 如 图 2.1 所 示 。 


1. 一 个 URL: example.com 


4, 在 屏幕 上 看 到 的 结果 
2 SHTML ck 3. 浏览 器 内 部 的 树 状 表示 形式 在 Chrome 上 


Example Domain 
m Example .在 移动 设备 浏览 器 上 


$ <hl ple Dosain</hi>» 

d 

pate <5 7 sited This domain is establí s | 在 lynx 上 
er a ds val org ee RE may ube this domain | s i — 
domains/example">More aij t peony t 
information... .</a></p></ i 

div></body></html> 


ë Domaine, 


re information 


。 在 浏览 器 中 输入 URL 。URL 的 第 一 部 分 (域名 ， 比 如 
gumtree.com) 用 于 在 网 络 上 找到 合适 的 服务 器 ， 而 URL 以 及 
cookie 等 其 他 数据 则 构成 了 一 个 请 求 ， 用 于 发 送 到 那 台 服务 器 当 
中 o 


。 服务 端 回 应 ， 同 浏览 磺 发 送 一 个 HTML 页 面 。 需 要 注意 的 是 ， 服 
务 端 也 可 能 返回 其 他 格式 ， 比 如 XML 或 JSON， 不 过 目前 我 们 只 
关注 HTML 。 

。 将 HTML 转换 为 浏览 器 内 部 的 树 状 表 示 形 式 : 文档 对 象 模型 

(Document Object Model , DOM ) 

。 基于 一 些 布局 规则 演 染 内 部 表示 ， 达 到 你 在 屏幕 上 看 到 的 视觉 效 

果 o 


下 面 来 看 看 这 些 步骤 ， 以 及 它们 所 需 的 文档 表示 。 这 将 有 助 于 定 
位 你 想 要 抓 取 并 编写 程序 获取 的 文本 。 


2.1.1 URL 


对 于 我 们 而 言 ，URL 分 为 两 个 主要 部 分 。 第 一 个 部 分 通过 域名 系 
统 (Domain Name System ，DNS ) 帮助 我 们 在 网 络 上 定位 合适 的 服 
务 器 。 比 如 ， 当 在 浏览 需 中 发 送 https:V// 
mail.google.com/mail/u/0/#inbox 时 ， 将 会 创建 一 个 对 
mail.google.com 的 DNS 请 求 ， 用 于 确定 合适 的 服务 器 卫 地 址 ， 如 
173.194.71.83。 从 本 质 上 来 看 , https:// 
mail.google.com/mail/u/0/#inbox 被 翻译 为 
https://173.194.71.83/mail/ u/0/#inbox ° 


URL 的 剩余 部 分 对 于 服务 端 理解 请 求 是 什么 非常 重要 。 它 可 能 是 
一 张 图 片 、 一 个 文档 ， 或 是 需要 触发 某 个 动作 的 东西 ， 比 如 向 服务 右 
发 送 邮 件 。 


2.1.2 HTMIL 文 档 


服务 端 读 取 URL， 理 解 我 们 的 请 求 是 什么 ， 然 后 回应 一 个 HTML 

文档 。 该 文档 实质 上 惑 是 一 个 文本 文件 ， 我 们 可 以 使 用 TextMate ` 
Notepad、vi 或 Emacs 打 开 它 。 和 大 多 数 文本 文档 不 同 ，HTML 文 档 具 
有 由 万 维 网 联盟 指定 的 格式 。 该 规范 当然 已 经 超出 了 本 书 的 范畴 ， 不 
过 还 是 让 我 们 看 一 个 简单 的 HTML 页 面 。 当 访问 
http://example.com 时， 可 以 在 浏览 右 中 选择 View Page Source 

(查看 页 面 源 代码 ) 以 看 到 与 其 相关 的 HTML 文 件 。 在 不 同 的 浏览 器 
中 ， 具 体 的 过 程 是 不 同 的 ， 在 许多 系统 中 ， 可 以 通过 右键 单 击 找到 该 
选项 ， 并 且 大 部 分 浏览 器 在 你 按 下 Ctrl + U 快捷 键 (或 Mac 系 统 中 的 
Cmd + U) 时 可 以 显示 源 代 码 。 


在 一 些 页 面 中 ， 该 功能 可 能 无 法 使 用 。 此 时 ， 需 要 通过 单 击 Chrome 菜 
单 ， 然 后 选择 Tools | View Source 才 可 以 。 


下 面 是 http://example .com 目前 的 HTML 源 代码 。 


<!doctype html> 
<html> 
<head> 
<title>Example Domain</title> 
<meta charset="utf-8" /> 
<meta http-equiv="Content-type" 
content="text/html; charset=utf-8" /> 
<meta name="viewport" content="width=device-width, 
initial-scale=1" /> 
<style type="text/css"> body { background-color: ... 
} }</style> 
<body> 
<div> 
<h1>Example Domain</h1> 


<p>This domain is established to be used for 
illustrative examples examples in documents. 
You may use this domain in examples without 
prior coordination or asking for permission.</p> 
<p><a href="http://www.iana.org/domains/example 
Ws 
More information 
</div> 
</body> 
</html> 


</a></p> 


我 将 这 个 HTML 文 档 进行 了 格式 化 ， 使 其 更 具 可 读 性 ， 而 你 看 到 
的 情况 可 能 是 所 有 文本 在 同一 行 中 。 在 HTML 中 ， 
数 情况 下 是 无 天 紧要 的 。 


空格 和 换行 在 大 多 
人 尖 括 号 中 间 的 文本 (比如 <html> 或 <head> ) 被 称 为 标签 。 
<html> 是 起 始 标 签 ， 


IXI oda 


的 使 用 比较 粗心 (比如 ， 为 独立 的 段落 使 用 单一 的 <p> 标签 ) 
AREA LE 


</html> 是 结束 标签 。 这 两 种 标签 的 唯一 区 
别 是 /字符 。 这 说 明 ， 标 签 是 成 对 出 现 的 。 虽 然 一 些 网 页 对 于 结束 标签 
浏览 器 _ 

里 o 


， 但 是 
试 推测 结束 的 </p> 标签 应 该 在 哪 
中 可 能 


和 </p> 标签 中 的 所 有 东西 被 称 为 HTML 元 素 。 
包括 其 他 元 素 ， 比 如 示例 中 的 <div> 元 素 ， 
素 的 第 二 个 <p> 元 素 。 


。 请 注意 ， 元 素 
或 是 包含 <a> 元 
有 些 标 签 会 更 加 复杂 


， 比 如 <a 


href="http://www.iana.org/domains/example ">。 含 有 
URL 的 href 部 分 被 称 为 属性 


最 后 ， 许 多 元 素 还 包含 文本 ， 比 如 <h1> 元 素 中 的 "Example 


Domain" ° 


对 于 我 们 来 说 ， 好 消息 是 这 些 标签 并 不 都 是 重要 的 。 唯 一 可 见 的 
东西 是 body 元 素 中 的 元 素 ， 即 <body> 和 </body> 标签 之 间 的 元 素 。 
<head> 部 分 对 于 指明 诸如 字符 编码 的 元 信息 来 说 非常 重要 ， 不 过 
Scrapy 能 够 处 理 大 部 分 此 类 问题 ， 所 以 很 多 情况 下 不 需要 关注 HTML 
页 面 的 这 个 部 分 。 


2.1.3” 树 表示 法 


每 个 浏览 器 都 有 其 自身 复杂 的 内 部 数据 结构 ， 和 凭借 它 来 泻 染 网 
页 。 DOM 表 示 法 具有 跨 平 台 、 语 言 无 关 性 等 特点 ， 并 且 被 大 多 数 浏览 
器 所 支持 。 


想 要 在 Chrome 中 查看 网 页 的 树 表示 法 ， 可 以 右键 单 击 你 感 兴趣 的 
元 素 ， 然 后 选择 Inspect Element 。 如 采 该 功能 被 禁用 ， 你 仍然 可 以 通 
过 单 击 Chrome 荣 单 并 选择 Tools | Developer Tools 来 访问 它 ， 如 图 2.2 所 
不 o 


Back 单 击 右 键 


Reload 


exa Save / U 

dina Print. 
TransJnspect Element 
View Page Source 


View Rage Info 
Insp ct Element 


图 2.2 


此 时 ， 你 可 以 看 到 一 些 看 起 来 和 HTML 表 示 非 常 相似 但 又 不 完全 
相同 的 东西 。 它 就 是 HTML 代 码 的 树 表示 法 。 如 果 不 管 原始 HTML 文 
档 是 如 何 使 用 空格 和 换行 符 的 话 ， 它 看 起 来 几乎 惑 是 一 样 的 。 你 可 以 
单 击 每 个 元 素 ， 检 查 或 调整 属性 等 ， 同 时 可 以 在 屏幕 上 观察 这 些 变动 
有 何 影响 。 比 如 ， 当 你 双击 某 个 文本 ， 修 改 它 ， 并 按 下 回 车 键 时 ， 愤 
幕 上 的 文本 将 会 更 新 为 这 个 新 值 。 在 右 侧 的 Properties 标签 下 ， 可 以 
看 到 这 个 树 表示 法 的 属性 ， 并 且 在 底部 可 以 看 到 一 个 类 似 面 包 导 的 结 
构 ， 它 显示 出 了 当前 选择 的 元 素 在 HIML 元 素 层 次 结构 中 的 确切 位 
置 ， 如 图 2.3 所 示 。 


x | Elements | Resources Network Sources Timeline Profiles Audits Console | 


» Computed Style Show inherited | 
wental> å S A ia ee 
» 1 LA - 
st Styles + 深交 | 
<title>Example Domain</title> > 


. 
<meta charset="utf-8"> Properties | 
<meta http-equiv="Content-type” content= 

; 
. 


"text/htal; charset=utf-8"> a 
<meta name="viewport” content= accessKey: 


| 
“width=device-width, initial-scale=1"> align: "" | 
> <StyLe type="text/css"> </style> » attributes: NamedNodeMap 
</head> baseURI: “http://example. iana.org/” | 
v childElementCount: 3 ; 
> childNodes: NodeList[7] | 
ample Domain</hi> » children: HTMLCoLlection [3] 
> <p>_.</p> » classList: DOMTokenList | 
Y <p> className: "" | 
<a href="http://www. iana.org/domains/ clientHeight: 200 
example">More information...</a> clientLeft: 0 
</p> clientTop: 0 
</div> clientWidth: 657 
</body> contentEditable: “inherit” 


</htel> » dataset: DOMStringMap 


dirs S 


© > 


图 2.3 


需要 注意 的 一 个 重要 事情 是 ，HTML 只 是 文本 ， 而 树 表 示 法 是 浏 
时 器 内 存 里 的 对 象 ， 你 可 以 通过 编程 的 方式 查看 并 操纵 它 ， 比 如 在 
Chrome 中 使 用 Developer Tools 。 


2.1.4 ”你 会 在 屏幕 上 看 到 什么 


HTML 文 本 表示 和 树 表示 并 不 包含 任何 像 我 们 通常 在 屏幕 上 看 到 
的 那 种 漂亮 视图 。 这 实际 上 是 HTML 成 功 的 原因 之 一 。 它 应 该 是 一 个 
由 人 类 阅读 的 文档 ， 并 且 可 以 指定 页 面 中 的 内 容 ， 而 不 是 用 于 在 屏 幕 
中 泻 染 的 方式 。 这 意味 着 选择 HTML 文 档 并 使 其 更 加 好 看 是 浏览 器 的 
责任 ,不管 它 是 诸如 Chrome 的 全 功能 浏览 器 、 移 动 设备 浏览 器 ， 甚 至 
是 诸如 Lynx 的 纯 文本 浏 贤 器 。 


也 就 是 说 ， 网 络 的 发 展 促 使 Web 开 发 者 和 用 户 对 网 页 渲染 的 控制 
产生 了 巨大 需求 。CSS 的 创建 就 是 为 了 对 HTML 元 素 如 何 渲染 给 予 提 
示 。 不 过 ， 对 于 抓 取 而 言 ， 我 们 并 不 需要 任何 和 CSS 相 关 的 东西 。 


那么 ， 树 表示 法 是 如 何 映射 到 我 们 在 屏幕 上 所 看 到 的 东西 呢 ? 答 
案 就 是 框 模型 。 正 如 DOM 树 元 素 可 以 包含 其 他 元 素 或 文本 一 样 ， 默 认 
情况 下 ， 当 在 屏幕 上 泻 染 时 ， 每 个 元 素 的 框 表示 同样 也 都 包含 其 能 入 
元 素 的 框 表示 。 从 这 种 意义 上 说 ， 我 们 在 屏幕 上 所 看 到 的 是 原始 
HTML 文 档 的 二 维 表示 一 一 树 结构 也 以 一 种 隐藏 的 方式 作为 该 表示 的 
一 部 分 。 比 如 ， 在 图 2.4 中 ， 我 们 可 以 看 到 3 个 DOM 元 素 (一 个 <div> 
和 两 个 嵌入 元 素 <h1> 和 <p> ) 是 如 何在 浏览 器 和 DOM 中 呈现 的 。 
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图 2.4 


2.2 ”使 用 XPath 选择 HTMEL 元 素 


如 有 果 你 具有 传统 软件 工程 背景 ， 并 且 不 了 解 XPath 相 关 知 识 的 话 ， 
可 能 会 担心 为 了 访问 HTML 文 档 中 的 信息 ， 你 将 需要 做 很 多 子 符 串 匹 
配 、 在 文档 中 搜索 标签 、 处 理 特殊 情况 等 工作 ， 或 是 需要 设法 解析 整 
个 树 表 示 法 以 获取 你 想 抽 取 的 东西 。 有 一 个 好 消 恩 是 这 些 工作 都 不 十 
必需 的 。 你 可 以 通过 一 种 称 为 XPath 的 语言 选择 并 抽取 元 素 、 属 性 和 文 
本 ， 这 种 语言 正 是 专门 为 此 而 设计 的 。 


为 了 在 Google Chrome 浏 贤 器 中 使 用 XPath， 需 要 单 击 Developer 
Tools 的 Console 标签 ， 并 使 用 $x 工具 函数 。 比 如 ， 你 可 以 尝试 在 
http://example. com/ 上 使 用 $x('//h1i')。 它 将 会 把 浏览 絮 移 
动 到 <h1> 元 素 上 ， 如 图 2.5 所 示 。 


e C www.example.com of 三 


ished to be used for illustrative examples i in documents. You 
e asking for 


> $x('//h1") 
[<hl>Example 96 
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图 2.5 


你 在 Chrome 的 Console 标签 中 将 会 看 到 返回 的 是 一 个 包含 选 定 元 
素 的 JavaScript 数 组 。 如 果 将 鼠标 指针 移动 到 这 些 属性 上 ， 被 选取 的 元 
素 将 会 在 屏幕 上 高 党 显示 ， 这 样 就 会 十 分 方便 。 


2.2.1 有 用 的 XPath 表 达 式 


文档 的 层次 结构 始 于 <html> 元 素 ， 可 以 使 用 元 素 名 和 和 斜 线 来 选 
择 文档 中 的 元 素 。 比 如 ， 下 面 是 几 种 表达 式 从 
http://example.com 页 面 返 回 的 结果 ° 


$x('/htm1') 

[ <html>...</html> ] 
$x('/html/body' ) 

[ <body>...</body> ] 
$x('/html/body/div' ) 

[ <div>...</div> ] 
$x('/html/body/div/h1' ) 

[ <hi>Example Domain</h1> ] 
$x('/html/body/div/p' ) 

[ <p>...</p>, <p>...</p> ] 
$x('/html/body/div/p[1]') 

[ <p>...</p> ] 
$x('/html/body/div/p[2]') 

[ <p>...</p> ] 


需要 注意 的 是 ， 因 为 在 这 个 特定 页 面 中 ，<div> 下 包含 两 个 <p> 
元 素 ， 因 此 html/body/div/p 会 返回 两 个 元 素 。 可 以 使 用 p[1] 和 
p[2] 分 别 访问 第 一 个 和 第 二 个 元 素 。 


另外 还 需要 注意 的 是 ， 从 抓 取 的 角度 来 说 ， 文 档 标 题 可 能 是 head 
部 分 中 我 们 唯一 感 兴趣 的 元 素 ， 该 元 素 可 以 通过 下 面 的 表达 式 进行 访 
问 。 


$x('//html/head/title' ) 
[ <title>Example Domain</title> ] 


对 于 大 型 文档 ， 可 能 需要 编写 一 个 非常 大 的 XPath 表 达 式 以 访问 指 
定 元 素 。 为 了 避免 这 一 问题 ， 可 以 使 用 // 语法 ， 它 可 以 让 你 取得 某 一 
特定 类 型 的 元 素 ， 而 无 需 考 虑 其 所 在 的 层次 结构 。 比 如 ，/Vp 将 会 选 
择 所 有 的 p 元 素 ， 而 //a 则 会 选择 所 有 的 链接 。 


..</p>, <p>...</p> ] 


[ <a href="http://www.iana.org/domains/example 


">More 
information...</a> ] 


同样 ，//a 语法 也 可 以 在 层次 结构 中 的 任何 地 方 使 用 。 比 如 ， 要 
想 找 到 div 元 素 下 的 所 有 链接 ， 可 以 使 用 //div//a。 需 要 注意 的 
是 ， 只 使 用 单 矢 线 的 //div/a 将 会 得 到 一 个 空 数组 ， 这 是 因为 在 
example.com 中 ，'div' 元 素 的 直接 下 级 中 并 没有 任何 'a' 元 素 : 


$x('//div//a' ) 
[ <a href="http://www. iana.org/domains/example 


">More 
information...</a> ] 
$x('//div/a' ) 

[ ] 


还 可 以 选择 属性 。http://example.com/ 中 的 唯一 属性 是 链接 中 的 
href ， 可 以 使 用 符号 @ 来 访问 该 属性 ， 如 下 面 的 代码 所 示 。 


$x('//a/@href') 
[ href="http://ww.iana.org/domains/example 


实际 上 ， 在 Chrome 的 最 新 版 本 中 ，@href 不 再 返回 URL， 而 是 返回 


一 个 空 字符 串 。 不 过 不 用 担心 ， 你 的 XPath 表 达 式 仍然 是 正确 的 。 


还 可 以 通过 使 用 text( ) 函数 ， 只 选取 文本 。 


$x('//a/text()') 
[ "More information..." ] 


可 以 使 用 * 符 号 来 选择 指定 层级 的 所 有 元 素 。 比 如 : 


$x('//div/*' ) 
[ <hi>Example Domain</h1i>, <p>...</p>, <p>...</p> ] 


你 将 会 发 现 选 择 包含 指定 属性 (比如 @class ) 或 是 属性 为 特定 
值 的 元 素 非 常 有 用 。 可 以 使 用 更 高 级 的 谓词 来 选取 元 素 ， 而 不 再 是 前 
面 例子 中 使 用 过 的 p[1] 和 p[2] 。 比 如 ，//a[@href] 可 以 用 来 选 
择 包含 href 属性 的 链接 ， 

而 //a[@href="http://www.iana.org/domains/example "] 
则 是 选择 href 属性 为 特定 值 的 链接 。 


更 加 有 用 的 是 ， 它 还 拥有 找到 href 属性 中 以 一 个 特定 子 字符 串 
起 始 或 包含 的 能 力 。 下 面 是 儿 个 例子 。 


$x('//a[@href]') 
[ <a href="http://www. iana.org/domains/example 


">More information...</a> ] 
$x('//a[@href="http: //www.iana.org/domains/example 


"]') 


[ <a href="http://www.iana.org/domains/example 


">More information...</a> | 
$x('//a[lcontains(@href, "iana")]') 
[ <a href="http://www.iana.org/domains/example 


">More information...</a> ] 
$x('//a[starts-with(@href, "http://ww.")]') 
[ <a href="http://www. iana.org/domains/example 


">More information. ..</a>] 
$x('//a[not(contains(@href, "abc"))]') 
[ <a href="http://www. iana.org/domains/example 


">More information...</a>] 


XPath 有 很 多 像 not() > contains() #lstarts-with() 这 样 
的 函数 ， 你 可 以 在 在 线 文档 ( 


http://www.w3schools.com/xsl1/xsl_functions.asp ) 中 


找到 它们 ， 不 过 即使 不 使 用 这 些 画 数 ， 你 也 可 以 走 得 很 远 。 


现在 ， 我 还 要 再 多 说 一 点 ， 大 家 可 以 在 Scrapy 命 令 行 中 使 用 同样 
的 XPath 表达 式 。 要 打开 一 个 页 面 并 访问 Scrapy 命 令 a 只 需要 输入 如 
下 命令 


scrapy shell http://example.com 


emo, BARS E a MG RAS e BIE 
= 〈 参 见 下 一 章 ) a 对 于 HTML 文 档 来 说 
就 是 HtmlResponse 类 ， 该 类 可 以 让 你 通过 xpath( ) 方法 模拟 
Chrome 中 的 $x 。 下 面 是 一 些 示 例 。 


= 


response.xpath('/htm1').extract() 
[u'<html><head><title>...</body></htm1>' ] 

response. xpath('/html/body/div/h1' ).extract() 
[u'<h1i>Example Domain</h1>' ] 

response.xpath('/html/body/div/p').extract() 
[u'<p>This domain ... permission.</p>', u'<p><a 

href="http://www. 

iana.org/domains/example 


">More information...</a></p>' ] 
response.xpath('//html/head/title').extract() 
[u'<title>Example Domain</title>' ] 
response.xpath('//a').extract() 
[u'<a href="http://www.iana.org/domains/example 


">More 

information...</a>'] 

response.xpath('//a/@href').extract() 
[u'http://www. iana.org/domains/example 


‘J 


response.xpath('//a/text()').extract() 
[u'More information...'] 

response.xpath('//a[starts-with(@href, "http://www.")]').extract() 
[u'<a href="http://www.iana.org/domains/example 


">More 
information...</a>'] 


HRS, ME LEA Chrome#? &XPath#IAT, Aa tEScrapy 
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2.2.2 ”使 用 Chrome 获 取 XPath 表 达 式 


Chrome 通 过 回 我 们 提供 一 些 基 本 的 XPath 表达 式 ， 从 而 对 开发 者 
更 加 友好 。 从 前 文 提 到 的 检查 元 素 开 始 : 右键 单 击 想 要 选取 的 元 素 ， 
然后 选择 Inspect Element 。 该 操作 将 会 打开 Developer Tools ， 并 且 在 
树 表 示 法 中 高 亮 显 示 这 个 HTML 元 素 。 现 在 右键 单 击 这 里 ， 在 菜单 中 
选择 Copy XPath ， 此 时 XPath 表达 式 将 会 被 复制 到 剪贴 板 中 。 上 述 过 
程 如 图 2.6 所 示 。 


may use thir 


在 页 面 的 任何 位 置 单 Ae = |Dements| Resources Network Sources Tima 
so" eae Link in New Tab 石 键 单 击 一 个 | 元 素 


Open Link in New Window 


rat 
Open Link in incognito Window ites Fie Attribute 


Save Link As = = z 
Copy link Address ms orce Element State 
Copy Edit as HTML m 
Search Google com for "More information..." wps Copy as HTML 
dalv 
单 击 Inspect Element </body> 
SE eee aea sigs 
Look Up in Dictionary 4C aig . > 
» Speech > 击 Copy X Pat 
es Awditxn Cor 单 p) 
~ Search With Google 1 ~ word Wrap 
Add to iTunes a3 a Spoken Track EA EA. Salient <r 


图 2.6 


你 可 以 和 之 前 一 样 ， 在 命令 行 中 测试 该 表达 式 。 


$x('/html/body/div/p[2]/a') 
[ <a href="http://www.iana.org/domains/example 


">More 
information...</a>] 


2.2.3 ”常见 任务 示例 


有 一 些 XPath 表 达 式 ， 你 将 会 经 常 遇 到 。 让 我 们 看 一 些 目前 在 维基 
百科 页 面 上 的 例子 。 维 基 百 科 拥 有 一 套 非常 稳定 的 格式 ， 所 以 我 认为 
它们 不 会 很 快 发 生 改变 ， 不 过 改变 终究 还 是 会 发 生 的 。 我 们 把 如 下 这 
些 表达 式 作 为 说 明 性 示例 。 


。 获取 id A"firstHeading" 的 hil 标签 下 span 中 的 text 。 


//hi[@id="firstHeading"]/span/text() 


。 获取 id 为 "toc "的 div 标签 内 的 无 序列 表 (ul ) 中 所 有 链接 
URL ° 


//div[@id="toc"]/ul//a/@href 


。 获取 class 属性 包含 "ltr" 以 及 class 属性 包含 "skin- 


vector" 的 任意 元 素 内 所 有 标题 元 素 (h1) 中 的 文本 。 这 两 个 
字符 串 可 能 在 同一 个 class 中 ， 也 可 能 在 不 同 的 class 中 。 


//*[contains(@class,"ltr") and contains(@class, "Skin- 


vector") ]//h1//text() 


实际 上 ， 你 将 会 经 常 在 XPath 表达 式 中 使 用 到 类 。 在 这 些 情况 下 ， 

需要 记 住 由 于 一 些 被 称 为 CSS 的 样式 元 素 ， 你 会 经 常 看 到 HTML 元 素 
在 其 class 属性 中 拥有 多 个 类 。 比 如 ， 在 一 个 导航 系统 中 ， 你 会 看 到 
一 些 div 标 签 的 class 属性 是 "Link "， 而 另 一 些 是 "Link active 
"。 后 者 是 当前 激活 的 链接 ， 因 此 会 表现 为 可 见 或 使 用 一 种 特殊 的 颜色 

(通过 CSS) 高 亮 表示 。 当 抓 取 时 ， 你 通常 会 对 包含 有 特定 类 的 元 素 
感 兴趣 ， 有 具体 来 说 ， 束 是 前 面 例子 中 的 "Link" 和 "Link active": 
对 于 这 种 情况 ，XPath 的 contains() 函数 可 以 让 你 选择 包含 有 指定 
类 的 所 有 元 素 。 


。 选择 class 属性 值 为 "infobox "的 表格 中 第 一 张 图 片 的 URL 。 


//table[@class="infobox"]//img[1]/@src 


。 选择 class 属性 以 "reflist "开头 的 div 标签 中 所 有 链接 的 
URL ° 


//div[starts-with(@class, "reflist")]//a/@href 


。 选 择 子 元 素 包 含 文本 "References "的 元 素 之 后 的 div 元 素 中 所 
有 链接 的 URL 。 


//*[text()="References"]/../following-sibling::div//a 


请 注意 该 表达 式 非 常 脆弱 并 且 很 容易 无 法 使 用 ， 因 为 它 对 文档 绪 
构 做 了 过 多 假设 。 


。 获取 页 面 中 每 张 图 片 的 URL © 


//img/@src 


2.2.4 ”预见 变化 


抓 取 时 经 芝 会 指 同 我 们 无 法 控制 的 服务 毅 页 面 。 这 台 意 味 着 如 采 
它们 的 HTML 以 某 种 方式 发 生变 化 后 ， 束 会 使 XPath 表达 式 失 效 ， 我 们 
将 不 得 不 回 到 爬虫 当中 进行 修正 。 通 常情 况 下 ， 这 不 会 花费 很 长 时 
间 ， 因 为 这 些 变化 一 般 都 很 小 。 但 是 ， 这 仍然 是 需要 避免 发 生 的 情 
况 。 一 些 简单 的 规则 可 以 帮助 我 们 减少 表达 式 失效 的 可 能 性 。 


。 避免 使 用 数组 索引 (数值 ) 


Chrome 经 间 会 给 你 的 表达 式 中 包含 大 量 单数 ， 例 如 : 


//*[@id="myid"]/div/div/div[1]/div[2]/div/div[1]/div[1]/a/img 


这 种 方式 非常 脆弱 ， 因 为 如 采 像 广告 块 这 样 的 东西 在 层次 结构 中 
的 某 个 地 方 添 加 了 一 个 额外 的 div 的 话 ， 这 些 数 字 最 终 将 会 指向 不 同 
的 元 素 。 本 案例 的 解决 方法 是 尽 可 能 接近 目标 的 jmg 标签 ， 找 到 一 个 
可 以 使 用 的 包含 id 或 者 class 属性 的 元 素 ， 如 : 


//div[@class="thumbnail" ]/a/img 


。 类 并 没有 那么 好 用 


使 用 class 属性 可 以 更 加 容易 地 精确 定位 元 素 ， 不 过 这 些 属性 一 
般 和 是 用 于 通过 CSS 影 响 页 面 外 观 的 ， 因 此 可 能 会 由 于 网 站 布局 的 微小 
变更 而 产生 变化 。 例 如 下 面 的 class : 


//div[@class="thumbnail" ]/a/img 


一 段 时 间 后 ， 可 能 会 变 成 : 


//div[@class="preview green"]/a/img 


。 有 意义 的 面向 数据 的 类 要 比 具体 的 或 者 面向 布局 的 类 更 好 


在 前 面 的 例子 中 ， 无 论 是 "thumbnail "还 是 "green "都 是 我 们 所 
依赖 类 名 的 坏 示 例 。 虽 然 "thumbnail" 比 "green "确实 更 好 一 些 ， 但 
是 它们 都 不 如 "departure-time"。 前 面 两 个 类 名 是 用 于 描述 布局 
的 ， 而 "departure-time "更 加 有 意义 ， 与 div 标签 中 的 内 容 相关 。 
因此 ， 在 布局 发 生变 化 时 ， 后 者 更 可 能 保持 有 效 。 这 可 能 也 意味 着 该 


站 的 开发 者 非常 清楚 使 用 有 意义 并 且 一 致 的 方式 标注 他 们 数据 的 好 
处 。 


。 [Di ti eee A) SEA 
通常 情况 下 ，id 属性 是 针对 一 个 目标 的 最 佳 选 择 ， 因 为 该 属性 既 
有 意义 又 与 数据 相关 。 部 分 原因 是 JavaScript 以 及 外 部 链接 销 一 般 选 择 


id 属性 以 引用 文档 中 的 特定 部 分 。 例 如 ， 下 面 的 XPath 表达 式 非 常 健 
壮 。 


//*(@id="more_info"]//text() 


例外 情况 是 以 编程 方式 生成 的 包含 唯一 标记 的 ID 。 这 种 情况 对 于 
MNS Ice ° Hea: 


//(@id="order -F4982322" ] 


尽管 使 用 了 id ， 但 上 面 的 表达 式 仍然 是 一 个 非常 差 的 Xpath 表 
达 式 。 需 要 记 住 的 是 ， 尽 管 ID 应 该 是 唯一 的 ， 但 是 你 仍然 会 发 现 很 多 
HTML 文档 并 没有 满足 这 一 要 求 。 


2.3 ”本 章 小 结 


由 于 标记 的 质量 不 断 提高 ， 现 在 可 以 更 加 容易 地 创建 健壮 的 XPath 
表达 式 ， 来 抽取 HTML 文档 中 的 数据 。 在 本 章 中 ， 你 学 习 了 HTML 文 
档 和 XPath 表达 式 的 基础 知识 。 你 可 以 看 到 如 何 使 用 Google 的 Chrome 
浏 蜗 妖 目 动 获取 一 些 XPath 表 达 式 ， 并 将 其 作为 我 们 后 续 优化 的 起 点 。 


你 同样 还 学 到 了 如 何 通过 审查 HTML 文 档 ， 直 接 创建 这 些 表 达 式 ， 以 
及 辨别 XPath 表达 式 是 否 人 健壮。 现在， 我 们 准备 好 运用 已 经 学 到 的 所 有 
知识 ， 在 第 3 章 中 使 用 Scrapy 编 写 我 们 的 前 几 个 爬虫 。 


B3% MER 


这 有 征 非常 重要 的 一 章 ， 你 可 能 会 多 次 阅读 本 章 ， 并 且 经 党 会 在 寻 
找 解决 方案 时 回 到 本 革 中 。 我 们 首先 会 介绍 如 何 安 狠 Scrapy， 然 后 伴 
随 寿 干 示例 及 不 同 的 实现 ， 转 回 开 发 Scrapy 讨 虫 的 方法 论 。 在 开始 之 
前 ， 我 们 先 来 看 一 些 重 要 的 概念 。 


由 于 我 们 会 快速 进入 有 趣 的 代码 部 分 ， 因 此 使 用 本 书 中 代码 片段 
的 能 力 非常 重要 。 当 你 看 到 如 下 内 容 时 : 


$ echo hello world 


hello world 


表示 你 在 终端 输入 了 echo hello word (忽略 美元 符号 ) , # 
下 来 的 一 行 或 几 行 就 是 你 在 终端 上 面 看 到 的 输出 。 


我 们 将 会 混用 “终端 "、“ 控 制 台 ” 和 “命令 行 * 这 几 个 术语 ， 它 们 在 本 书 

的 背景 下 没有 太 大 区 别 。 请 用 Google 搜 索 并 找 出 如 何 启动 你 所 使 用 的 平 

(Windows ` OS X 或 其 他 ) 中 的 控制 台 。 你 也 可 以 在 附录 A 中 找到 详细 的 
指引 。 


上 


eT 
1> 


当 你 看 到 如 下 内 容 时 : 


>>> print 'hi' 


hi 


表示 你 在 Python 或 Scrapy 的 shell 提 示 符 中 输入 了 print 'hi' 
(忽略 >>>) 。 同 样 地 ， 接 下 来 的 一 行 或 几 行 就 是 你 在 终端 上 面 看 到 
的 该 命令 的 输出 。 


在 本 书 中 ， 你 还 需要 编辑 文件 。 你 所 使 用 的 工具 很 大 程度 上 依赖 
于 你 的 环境 。 如 果 你 使 用 Vagrant (强烈 推荐 ) ， 可 以 使 用 电脑 或 笔记 
本 中 诸如 Notepad、Notepad++、Sublime Text、TextMate、Eclipse 或 
PyCharm 等 编辑 如 。 如 果 你 有 更 多 的 Linux 或 UNIX 使 用 经 验 ， 也 可 能 
更 喜欢 直接 使 用 Vim 或 Emacs 在 控制 台中 编辑 文件 。 这 两 种 编辑 絮 都 很 
强大 ， 不 过 需要 一 定 的 学 习 曲 线 。 如 果 你 是 一 个 初学 者 ， 并 且 不 得 不 
在 控制 台中 编辑 某 些 东西 ， 那 么 也 可 以 沦 试 对 初学 者 更 加 友好 的 nano 
编辑 硕 。 


3.1 ”安装 Scrapy 


Scrapy 的 安装 相对 来 说 比较 位 单 ， 不 过 它 会 完全 依赖 于 你 从 哪里 
起 步 。 为 了 能 够 文 持 尽 可 能 多 的 用 户 ， 本 书 中 运行 和 安装 Scrapy 以 及 
所 有 示例 的 “官方 ”方式 是 通过 Vagrant， 该 软件 能 够 让 你 在 不 考虑 宿主 


操作 系统 的 情况 下 ， 运 行 一 个 标准 的 Linux 系 统 ， 在 该 系统 中 我 们 已 经 
安 儿 好 所 有 需要 用 到 的 工具 。 我 们 将 会 在 接 下 来 的 几 小 节 中 给 
Vagrant 的 使 用 说 明 以 及 一 些 间 用 操作 系统 中 的 指引 。 


3.1.1 MacOS 


为 了 更 加 方便 地 阅读 本 书 ， 请 按照 后 面 给 出 的 Vagrant 使 用 说 明 操 
作 。 如 有 果 你 想 直接 在 MacOS 系 统 中 安 痛 Scrapy， 其 实 也 很 简单 。 只 需 
要 输入 下 面 的 命令 即 可 。 


$ easy_install scrapy 


然后 ， 一 切 都 会 为 你 准备 好 。 在 过 程 中 ， 可 能 会 要 求 你 填写 密码 
或 安装 Xcode， 如 图 3.1 所 示 。 这 些 都 没有 问题 ， 你 可 以 放心 地 接受 这 
些 请 求 。 


The "gcc" command requires the command line | 
A developer tools. Would you like to install the tools 
> now? 
Choose Install to continue. Choose Cet Xcode to install Xcode 
and the command line developer tools from the App Store 
Get Xcode Not Now 
es, 
p 2) e 
t Downloading software 
u a 5 
3 一 一 一 一 
Time remaining: About a minute 
© Stop | 


图 3.1 


3.1.2 Windows 


直接 在 Windows 系 统 中 安装 Scrapy 会 复杂 一 些 ， 坦 白 来 说 ， 会 有 
一 点 痛 碧 。 而 且 ， 安 装 本 书 中 所 需 的 所 有 软件 也 需要 很 大 程度 的 勇气 
和 决心 。 我 们 已 经 为 你 做 好 了 准备 。Vagrant 和 Virtualbox 可 以 在 
Windows 64 位 平台 中 良好 运行 。 直 接 前 往 本 章 后 续 的 相关 小 让， 你 可 
以 很 快 将 其 安装 好 并 运行 起 来 。 如 果 你 必须 要 在 Windows 系 统 中 直接 
安装 Scrapy， 请 查阅 本 书 网 站 (http://scrapybook.com) 中 的 
资源 。 


3.1.3 Linux 


和 前 面 提 及 的 两 个 操作 系统 一 样 ， 如 有 果 你 想 按照 本 书 操 作 ， 那 么 
Vagrant 就 是 最 为 推荐 的 方式 a 

由 于 在 很 多 场景 下 ， 你 需要 在 Linux 服 务 器 中 安装 Scrapy， 因 此 更 
详尽 的 指引 可 能 会 很 有 用 。 


确切 的 依赖 条 件 经 常会 发 生变 更 。 本 书 编写 时 ， 我 们 安装 的 Scrapy 版 
本 是 1.0.3， 下 面 的 内 容 是 针对 不 同 主流 系统 的 操作 指南 。 


1. Ubuntu 或 Debian Linux 


为 了 在 Ubuntu (使 用 Ubuntu 14.04 Trust Tahr 64 位 版 本 测试 ) 或 其 
他 使 用 apt 的 发 布 版 本 中 安装 Scrapy， 需 要 执行 如 下 3 个 命令 。 


$ sudo apt-get update 


$ sudo apt-get install python-pip python-1xml python-crypto 
python- 


cssselect python-openssl python-w3lib python-twisted python-dev 
libxml12- 


dev libxslti-dev zlibig-dev libffi-dev libssl-dev 


$ sudo pip install scrapy 


上 述 过 程 需要 一 些 编译 工作 ， 而 且 可 能 会 被 不 时 打 断 ， 不 过 它 将 
会 为 你 安装 PyPI 原 上 最 新 版 本 的 Scrapy。 如 果 你 想 避 免 某 些 编译 工 
作 ， 并 且 能 够 忍受 使 用 稍微 过 时 一 些 的 版 本 的 话 ， 可 以 通过 Google 搜 
索 “install Scrapy Ubuntu packages”， 并 跟随 Scrapy 官 方 文档 的 指引 进行 
操作 。 

2. Red Hat 或 CentOS Linux 


在 Red Hat 或 其 他 使 用 yum 的 发 布 版 本 中 安 狠 Scrapy 相 对 来 说 比较 
容易 。 你 只 需 按 照 如 下 3 行 操 作 即 可 。 


sudo yum update 


sudo yum -y install libxslt-devel pyOpenSSL python-1xml python- 
devel gcc 


sudo easy_install scrapy 


3.1.4 ”最 新 源码 安装 


只 要 你 按照 上 述 指 引 操 作 的话 ， 束 已 经 安装 好 了 Scrapy 目 前 所 需 
的 所 有 依赖 。 由 于 Scrapy 是 纯 Python 应 用 ， 因 此 如 果 你 想 修改 其 源 代 
码 或 测试 最 新 功能 ， 可 以 很 容易 地 从 
https://github.com/scrapy/scrapy 网 站 中 克隆 其 最 新 版 本 。 
在 你 的 系统 中 安装 Scrapy， 只 需 输入 如 下 命令 。 


$ git clone https://github.com/scrapy/scrapy.git 


$ cd scrapy 


$ python setup.py install 


我 犹如 果 你 属于 这 类 Scrapy 用 户 ， 也 就 不 需要 我 再 提 及 


virtualenv 了 。 


3.1.5 “升级 Scrapy 


Scrapy 经 常会 升级 。 你 会 发 现 目 己 需要 在 很 短 时 间 内 完成 升级 ， 
此 时 可 以 使 用 pip 、easy_install 或 aptitude 完成 这 项 工作 。 


$ sudo pip install --upgrade Scrapy 


$ sudo easy_install --upgrade scrapy 


如 有 条 想 降 级 或 选择 特定 版 本 ， 可 以 通过 指定 版 本 号 来 完成 ， 比 
如 : 


$ sudo pip install Scrapy==1.0.0 


$ sudo easy_install scrapy==1.0.0 


3.1.6 Vagrant: 本 书 中 运行 示例 的 官方 方式 


i ee 
服务 。 无 论 是 处 于 初学 还 是 进 阶 阶段 ， 都 可 以 运行 本 书 中 的 这 坚 


例 ， 这 是 因为 被 称 为 Vagrant 的 程序 可 以 让 我 们 仅仅 使 用 简单 的 命令 束 
能 准备 好 这 个 复杂 的 系统 。 本 书 中 使 用 的 系统 如 图 3.2 所 示 。 


图 3.2 ”本 书 使 用 的 系统 


在 Vagrant 的 术语 中 ， 你 的 电脑 或 笔记 本 被 称 为 “宿主 ?机 。Vagrant 
使 用 宿主 机 运行 Docker 提 供 者 VM 《虚拟 机 ) 。 这 些 技术 可 以 让 我 们 
拥有 一 个 隔离 的 系统 ， 在 其 中 拥有 其 私有 了 网络， 可 以 忽略 宿主 机 的 软 
硬件 ， 运 行 本 书 中 的 示例 。 


大 部 分 章节 只 使 用 了 两 个 服务 : "dev" 机 器 和 "web" 机 器 。 我 们 登 
录 到 dev 机 器 中 运行 仆 虫 ， 抓 取 web 机 屁 中 的 页 面 。 后 面 的 一 些 章 市 会 
用 到 更 多 的 服务 ， 包 括 数 据 库 和 大 数据 处 理 引 擎 。 


请 按照 附录 A 的 说 明 ， 在 操作 系统 中 安装 Vagrant。 到 附录 A 的 结 
BN, (MS CATERERS PRR git 和 Vagrant 了 。 打 开 控 制 


台 / 终 端 /命令 提示 符 ， 现 在 可 以 按照 如 下 操作 获取 本 书 的 代码 了 。 


$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 


然后 可 以 通过 输入 如 下 命令 打开 Vagrant 系 统 。 


$ vagrant up --no-parallel 


在 首次 运行 时 将 会 花费 一 些 时 间 ， 这 取决 于 你 的 网 络 连接 状况 。 
在 这 之 后 ，'vagrant up' 操 作 将 会 瞬间 完成 。 当 系统 运行 起 来 之 后 ， 就 
可 以 使 用 如 下 命令 登录 dev 虚 拟 机 。 


$ vagrant ssh 


现在 ， 你 已 经 处 于 开发 控制 台 当中 ， 在 这 里 可 以 按照 本 书 的 其 他 
说 明 操 作 。 代 码 已 经 从 你 的 宿主 机 复制 到 dev 机 器 当中 ， 可 以 在 book 目 
录 下 找到 这 些 代码 。 


$ cd book 


$ ls 


ch03 ch04 ch05 ch07 ch08 ch09 ch10 ch11 ... 


打开 几 个 控制 台 并 执行 vagrant ssh ， 可 以 获得 多 个 可 供 操作 
的 dev 终 端 。 可 以 使 用 vagrant halt 关闭 系统 ， 使 用 vagrant 
status 查看 系统 状态 。 请 注意 ，vagrant halt 不 会 关 掉 VM。 如 
果 出 现 问题 ， 则 需要 打开 VirtualBox 然 后 手动 关闭 它 ， 或 者 使 用 
vagrant global-status 找到 其 id (名 为 "docker-provider") ， 然 
后 使 用 vagrant halt <ID> 停 控 它 。 即 使 你 处 于 离线 状态 ， 大 部 分 
示例 仍然 能 够 运行 ， 这 也 是 使 用 Vagrant 的 一 个 很 好 的 副作用 。 


现在 ， 我 们 已 经 正确 地 创建 好 了 系统 ， 下 面 就 该 准备 学 习 Scrapy 
可 o 


3.2 UR? IM 一 基本 抓 取 流 程 


每 个 网 站 都 是 不 同 的 ， 如 采 发 现 某 些 不 常见 的 情况 ， 则 需要 一 些 
额外 的 学 习 ， 或 是 在 Scrapy 的 邮件 列表 中 咨询 一 些 问题 。 不 过 ,为 了 
知道 在 哪里 和 如 何 搜索 ， 重 要 的 是 对 其 流程 有 一 个 整体 的 了 解 ， 并 且 
清楚 相关 的 术语 。 和 Scrapy 打 交道 时 ， 你 所 遵循 的 最 通用 的 流程 是 
UR? IM 流 程 ， 如 图 3.3 所 示 。 


基本 的 爬 取 流程 


。 URL 
e 请 求 (Request) 


e 响应 (Response) 6 l 
e Jtem — 
。 更 多 的 URL (More URL) 


图 3.3” UR? IM 流程 


3.2.1 URL 


一 切 始 于 URL 。 你 需要 从 准备 抓 取 的 网 站 中 选择 儿 个 示例 URL。 
我 将 使 用 Gumtree 分 类 广告 网 站 ( https://www.gumtree.com ) 
作为 示例 进行 演示 。 


比如 ， 通 过 访问 Gumtree 上 的 伦敦 房产 主页 (链接 为 
http://www.gumtree.com/flats-houses/london ) ， 你 能 
人 够 找到 一 些 房 产 的 示例 URL。 可 以 通过 右键 单 击 分 类 列表 ， 选 择 Copy 
Link Address (复制 链接 地 址 ) 或 你 浏览 器 中 同样 的 功能 ， 来 复制 这 些 
链接 。 比 如 ， 其 中 一 个 可 能 类 似 于 
https://www.gumtree.com/p/studios-bedsits- 
rent/split-level 。 虽 然 可 以 在 真实 网 站 中 使 用 这 些 URL 来 操 
作 ， 但 不 垂 的 是 ， 经 过 一 段 时 间 后 ， 真 实 的 Gumtree 网 站 可 能 会 发 生变 
化 ， 造 成 XPath 表达 式 无 法 正常 工作 。 此 外 ， 除 非 设置 一 个 用 户 代理 
头 ， 人 否则 Gumtree 不 会 回应 你 的 请 求 。 稍 后 我 们 会 对 此 进行 更 进一步 的 


讲解 ， 不 过 就 现在 而 言 ， 如 果 想 加 载 它们 的 某 个 页 面 ， 可 以 在 scrapy 
shell 中 使 用 如 下 命令 。 


scrapy shell -s USER_AGENT="Mozilla/5.0" <your url here e.g. 
http://www. 


gumtree.com/p/studios-bedsits-rent/...> 


如 果 想 要 在 使 用 scrapy shell 时 调试 问题 ， 可 以 使 用 - -pdb 参数 局 
AZERI, MERRE E o Mal: 


scrapy shell --pdb https://gumtree.com 


很 显然 ， 我 们 并 不 鼓励 你 在 学 习 本 书 内 容 时 访问 Gumtree 的 网 站 ， 
我 们 也 不 硕 望 本 书 的 示例 在 不 久之 后 区 无 法 使 用 。 此 外 ， 我 们 还 希望 
即使 无 法 连接 互联 网 ， 你 仍然 能 够 开发 和 使 用 我 们 的 示例 。 这 就 是 为 
什么 你 的 Vagrant 开 发 环境 中 包含 一 个 提供 了 类 似 于 Gumtree 网 站 页 面 
的 Web 服 务 器 的 原因 。 虽 然 它 们 可 能 不 如 真实 网 站 那么 永亮 ， 但 是 从 
疏 虫 角度 来 说 ， 它 们 其 实 是 一 样 的 。 即 便 如 此 ， 我 们 在 本 章 中 的 所 有 
截图 还 是 来 自 真 实 的 Gumtree 网 站 。 在 你 Vagrant 的 dev 机 君 中 ， 可 以 通 


whttp://web:9312/ 访问 该 web 服务 器 ， 而 在 你 的 浏览 器 中 ， 可 
以 通过 http://localhost:9312/ 来 访问 。 


在 scrapy shell 中 打开 服务 絮 中 的 一 个 网 页 ， 并 且 在 dev 机 器 上 输入 


如 下 内 容 进 行 操作 。 


$ scrapy shell http://web:9312/properties/property_000000.htm1 


[s] Available Scrapy objects: 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


[s] 


crawler 


item 


request 


response 


settings 


spider 


<scrapy.crawler.Crawler object at 0x2d4fb10> 


{} 


<GET http:// web:9312/.../property_000000.htm1> 


<200 http://web:9312/.../property_000000.htm1> 


<scrapy.settings.Settings object at 0x2d4fa90> 


<DefaultSpider 'default' at Ox3ea0bd0> 


Useful shortcuts: 


shelp() 


Shell help (print this help) 


fetch(req_or_url) Fetch request (or URL) and update local... 


view(response ) View response in a browser 


我 们 得 到 了 一 些 输 出 ， 现 在 可 以 在 Python 提 示 符 下 ， 用 它 来 调试 
刚才 加 载 的 页 面 (一 般 情况 下 ， 可 以 使 用 Ctr1 + D 退出 ) 。 


3.2.2 ”请 求 和 响应 


大 家 可 能 注意 到 在 前 面 的 日 志 


, scrapy shell 本 屿 已 经 为 我 们 做 


了 一 些 工 作 。 我 们 给 出 了 一 个 URL， 然 后 它 执行 了 一 个 默认 的 GET 请 
求 ， 并 得 到 了 一 个 状态 码 为 200 的 响应 。 这 就 意味 着 ， 页 面 信 息 已 经 
加 载 完 毕 ， 可 以 使 用 了 。 如 果 想 要 打印 response body 的 前 50 个 字 


符 ， 可 以 按 如 下 命令 操作 © 


>>> response.body[ :50] 


"<1DOCTYPE html>\n<html>\n<head>\n<meta charset="UTF-8"' 


[:50] 是 什么 ? 这 是 Python 从 文本 变量 (Afl response. body ) 


中 抽取 最 前 面 50 个 字符 (HIF 


存在 ) 的 方式 。 如 曙 


你 之 前 并 不 了 解 


Python， 请 保持 冷静 ， 继 续 向 前 。 很 快 ， 你 就 会 熟悉 并 享受 所 有 这 些 语法 


技巧 了 。 


这 是 Gumtree 上 指定 页 面 的 HTML 内 容 。 请 求 和 响应 部 分 不 会 给 我 
们 带 来 太 多 压 烦 。 不 过 ， 在 很 多 情况 下 ， 你 需要 做 一 些 工 作 才 能 保证 
其 正确 。 第 5 章 中 讲 到 这 些 内 容 。 台 目前 来 说 ， 我 们 尽量 保持 简单 ， 直 
接 进 入 下 一 部 分 一 一 Item 。 


3.2.3 Item 


下 一 步 是 尝试 从 响应 中 将 数据 抽取 到 Item 的 字段 中 。 因 为 该 页 
面 的 格式 是 HTML， 因 此 可 以 使 用 XPath 表 达 式 进行 操作 。 首 先 ， 让 我 
们 看 一 下 这 个 页 面 ， 如 图 3.4 所 示 。 


All Categories z tondon +umiles 


< Back | United Kingdom / England / London / Westtondon / EarisCourt / Property | PropertytoRent / Flats&Housesfor Rent / Studio Apartments & Bedsitsto Rent 


Split level 3s yt i Sei Copy 
Search Google com for UTILITY’ ("ct 


Earls Court, London : 
Print... Seog te a See all ads 
Q map 
Inspect Element — Reveal 


Look Up in Dictionary 
Speech > 


= Sing Search With Google 


Look Up in VitalSource Bookshelf 
Add to iTunes as a Spoken Track 
Add to Evernote 


| Elements | = Sources Timeline 


eerie H Vrouw 

Tais LOCATION siner nains 

ve<main ro ain" class="grid-row ptm" itemscope itemtype="http://schema.org/Prodt 
seaside cl@ig="grid-col-12 hide-ful¥to-m " role="complementary"></aside> 


| Styles | Computed 


element.style { 
g 


+ truncate-number 
{ 


= 


v <div class@§grid-col-12 grid-col-l 


¥ <header iss="Clearfix space-mbs 
p<hl it ame" class="spacermbs">..</h1> bedi aT 
<strong d-location truncate-line set-left" itemscope itemtype="http://schema.org/Place" itemprop="name"> position: relati 
Earls Court, London telephone padding-right: 上 


</strong> 
= <span class="h1 set-right space-myn" itemprop="offers" itemscope itemtype="http: //schema.org/Offer">..</span> | .form-row-label { 
3 :after line-height: 40 
</header> } 


> <div class="tabs-triggers">..</div> 
>» «<div class="tabs-content space-mbm">..</div> 
><div class="hide~fully-from-m">.</div> 


| .txt-Uarge { 
font-size; 18px; 


</div> 
Y<div class="grid-col-m-6 hide-fully-to-m grid-col-m-right grid-col-l-4"> | .txt-emphasis { 
¥e<section class="box box-peelshadow-r" itemscope itemtype="http://schema.org/Person” data-q="reply—box-2"> font-weight: 696 
::before 
v <div class="box-padding"> [strong { 
p<h2 clas: runcate-line space-mbxs">.</h2> f 
»<p class="h-underline-s space-mbs“>..</p> \} | 
Y<div class="clearfix"> | 
><span clas: cn-phone icn-quaternary" aria-hidden="true">..</span> b, strong { 


pxstrong Class="truncate-number txt-Large txt-emphasis form-row-label” data-toggle="channel:number-truncate, className : is—showing, selfBroadcast: Het ett 
false" itemprop="telephone">.</strong> 


><a href="#" class="btn-secondary-point-left set-right" data-broadcast="channel: number-truncate,ance:true” data-analytics="gaEvent: lx, :before 
R2SPhoneBegin, zenoEvent : PhoneEvent, zenoOptions: {adId: 1074276630, pageType: VIP" data—toggle="channel: number—truncate, className: is- ‘after { > 
disabled, selfBroadcast:false">..</a> dd Oe Pe 


图 3.4 页面 、 感 兴趣 的 字段 及 其 HTML 代 码 


在 图 3.4 中 有 大 量 的 信息 ,但 其 中 大 部 分 部 是 布局 ，logo、 搜 索 
框 、 按 钮 等 。 虽 然 这 些 信息 都 很 有 用 ， 但 是 爬虫 并 不 会 对 其 产生 兴 
趣 。 我 们 可 能 感 兴趣 的 字段 ， 比 如 说 包括 房 源 的 标题 、 位 置 或 代理 商 
的 电话 号 码 ， 它 们 都 具有 对 应 的 HTML 元 素 ， 我 们 需要 定位 到 这 些 元 
素 ， 然 后 使 用 前 一 节 中 所 描述 的 流程 抽取 数据 。 那 么 ， 先 从 标题 开始 


(如 图 3.5 所 示 ) 。 


rRent / Studio Apartments&Bedsits! 


<Back | United Kingdom / England / London / WestLondon / EarlsCourt / Property / Propertyto Rent / Flats&Housesfo 


Contact 44. -s 


0.00pw 
h1.space-mbs 866px x 21px £350.00p Posting for 4+ years 
O images Q map 
Rey as 
* Save 


"class=" n"> 
emain role="main" class=" pea row space-ptm" rcpt itemtype="http://schema.org/Product"> 


<aside class="grid-col-12 hide-fully- ee -m " role="complementary"></aside: 


><div class="grid-col-12 hi Fa fully-to-m">.„</div> 


v vend las Selects grid-col-l-8"> 


rfix space-mbs"> 


ft" itenscop/htmi/body/div[3)/div/div[3]/main/div[2\/header/h1 


Add Attribute 
Edit Attribute 


a 
< ng> 
=" ffers" it type="http: yscQ i AA ipa 
a Force Element State een ee p 3: Simplify —— 
_ Edit as HTML 
><div class=" Copy as HTML > we 


> <div class=" 


Copy CSS Path 
Copy XPath 


21C0pY- XPath-cor-1 


</div> 
v ar prapa er ne -c 
temtype="http: pail -org/Person" data—q="reply-box-2"> 


="t Delete Node 


aes 
v <div a "box Break on... > 
> <h2 class="tr 
> <p class="h-d Creal inta View 


图 3.5 ”抽取 标题 


右键 单 击 页 面 上 的 标题 ， 并 选择 Inspect Element 。 这 样 瓯 可 以 看 
到 相应 的 HTML 源 代码 了。 现在 ， 演 试 通过 右键 单 击 并 选择 Copy 
XPath ， 抽 取 标 题 的 XPath 表 达 式 。 你 会 发 现 Chrome 浏 览 如 给 我 们 的 
XPath 表 达 式 很 精确 ， 但 又 十 分 复杂 ， 因 此 该 表达 式 是 非常 脆弱 的 。 我 
们 将 对 其 进行 一 些 简 化 ， 只 使 用 最 后 的 一 部 分 ， 通 过 使 用 表达 式 / /hli 
选择 在 页 面 中 可 以 看 到 的 任何 H1 元 素 。 尽 管 这 种 方式 有 些 误导 ， 
为 我 们 并 不 是 真 的 需要 页 面 中 的 每 一 个 HL ， 不 过 实际 上 这 里 只 有 标题 


使 用 了 H1 ; 而 作为 优秀 — 每 个 页 面 应 当 只 有 一 个 HL 元 
素 ， 并 且 大 部 分 网 站 确实 是 这 样 的 。 


SEO 是 Search Engine Optimization (搜索 引擎 优化 ) 的 缩写 ， 即 通过 优 
化 网 站 代码 、 内 容 和 出 入 站 链接 的 流程 ， 实 现 提供 给 搜索 引擎 的 最 佳 方 
式 。 


我 们 来 检查 下 该 XPath 表达 式 能 否 在 scrapy shell 中 民 好 运行 。 


>>> response. xpath('//h1/text()').extract() 


[u'set unique family well'] 


非常 好 ， 完 美工 作 。 你 应 该 已 经 注意 到 我 在 //h1 表达 式 的 结尾 
处 添加 了 /text () 。 如 采 想 要 只 抽取 H1 元 素 所 包含 的 文本 内 容 ， 而 
不 是 H1 元 素 目 身 的 话 ， 束 需要 使 用 到 它 。 我 们 通常 都 会 使 
用 /text( ) 来 获得 文本 字段 。 如 有 果 忽 略 它 ， 束 会 得 到 整个 元 素 的 文 
本 ， 包 括 并 不 需要 的 标记 。 


>>> response. xpath('//h1').extract() 


[u'<h1 itemprop="name" class="Space-mbs">set unique family 
well</h1>' ] 


ee 


此 时 ， 我 们 就 得 到 了 抽取 本 页 中 第 一 个 感 兴趣 的 属性 (标题 ) 的 
代码 ， 不 过 如 果 你 观察 得 更 仔细 的 话 ， 就 会 发 现 还 有 一 种 更 好 更 简单 
的 方法 也 可 以 做 到 。 


Gumtree 通 过 微 数 据 标记 注解 它们 的 HIML。 比 如 ， 我 们 可 以 看 
到 ， 在 其 头 部 有 一 个 itemprop="name'" 的 属性 ， 如 图 3.6 所 示 。 非常 
好 ， 这 样 我 们 就 可 以 使 用 一 个 更 简单 的 XPath 表达 式 ， 而 不 再 包含 任何 
可 视 化 元 素 了 ， 此 时 得 到 的 表达 式 为 //* [@itemprop="name"] 
[1]/text() 。 你 可 能 会 奇怪 为 什么 我 们 选择 了 包含 
itemprop="name" 的 第 一 个 元 素 。 


><h1 itemprop="name" class="space—mbs"'>..</h1> 


图 3.6 ”Gumtree 拥 有 微 数据 标记 


稍 等 ! 你 是 说 第 一 个 ? 如 果 你 是 一 个 经 验 丰富 的 程序 员 ， 可 能 已 经 将 
array[1] 作为 数组 的 第 二 个 元 素 了 。 令 人 惊讶 的 是 ，XPath 是 从 1 开始 
的 ， 因 此 array [1] 是 数组 的 第 一 个 元 素 。 


我 们 这 么 做 ， 不 只 ee eer e 在 许多 不 同 的 上 下 
| 还 因为 Gumtree 在 其 页 面 的 “你 可 能 还 喜 
E ”部 分 为 其 他 属性 使 用 了 崩 套 的 信息 ， 以 这 种 方式 了 组 止 我 们 对 其 


轻易 识别 。 尽 管 如 此 ， 这 并 不 是 一 个 大 问题 。 我 们 只 需要 选择 第 一 
个 ， 而 且 我 们 也 将 使 用 同样 的 方式 处 理 其 他 字段 。 


让 我 们 来 看 一 下 价格 。 价 格 被 包含 在 如 下 的 HTML 结 构 当中 。 


<strong class="ad-price txt-xlarge txt-emphasis" itemprop="price"> 
£334.39pw</strong> 


我 们 又 一 次 看 到 了 itemprop="name" 这 种 形式 ， 太 棒 了 。 此 
上 时，XPath 表 达 式 将 会 是 //*[@itemprop="price"][1]/text() 
* 我 们 来 试 一 下 吧 。 
>>> response. xpath('//*[@itemprop="price"][1]/text()').extract() 


[u'\xa3334.39pw' ] 


我 们 注意 到 ， 这 里 包含 一 些 Unicode 字 符 (RATS!) ， 然 后 是 
334.39pw 的 价格 。 这 表明 数据 并 不 总 是 像 我 们 希望 的 那样 干将， 所 
以 可 能 还 需要 对 其 进行 一 些 清洗 的 工作 。 比 如 ， 在 本 例 中 ， 我 们 可 能 
需要 使 用 一 个 正则 表达 式 ， 以 便 只 选择 数字 和 点 号 。 可 以 使 用 re( ) 
方法 做 到 这 一 要 求 ， 并 使 用 一 个 位 单 的 正则 表达 式 蔡 代 extract() 


o 


>>> response. xpath('//*[@itemprop="price"][1]/text()').re('[.0- 
9]+') 


[u'334.39"] 


这 里 使 用 了 一 个 response 对 象 ， 并 调用 了 它 的 xpath( ) 方法 来 抽 
取 感 兴趣 的 值 。 不 过 ，xpath( ) 返回 的 值 是 什么 呢 ? 如 果 在 一 个 简单 的 
XPath 表达 式 中 ， 不 使 用 .extract( ) 方法 ， 将 会 得 到 如 下 的 显示 输出 : 


>>> response.xpath('.') 


[<Selector xpath='.' data=u'<html>\n<head>\n<meta 


charse'>] 


xpath() 返回 了 网 页 内 容 预 加 载 的 Selector 对 象 。 我 们 目前 只 使 
JS xpath() 方法 ， 不 过 它 还 有 男 一 个 有 用 的 方法 : css() ° xpath() 
和 css( ) 都 会 返回 选择 器 ， 只 有 当 调 用 extract() 或 re( ) 方法 的 时 
候 ， 才 会 得 到 真实 的 文本 数组 。 这 种 方式 非常 好 用 ， 因 为 这 样 就 可 以 将 
xpath() 和 css() 操作 串联 起 来 了 。 比 如 ， 可 以 使 用 css( ) 快速 抽取 正 
确 的 HTML 元 素 。 


>>> response.css('.ad-price') 


[<Selector xpath=u"descendant-or-self::*[@class and 


contains(concat(' ', normalize-space(@class), ' '), ' 


ad-price ')]" data=u'<strong class="ad-price txt-xlarge 


请 注意 ， 在 后 台中 css ( ) 实际 上 编译 了 一 个 xpath( ) 表达 式 ， 不 过 
我 们 输入 的 内 容 要 比 XPath 自 身 更 加 简单 。 接 下 来 ， 串 联 一 个 xpath( ) 方 
法 ， 只 抽取 其 中 的 文本 。 


>>> response.css('.ad-price').xpath('text()') 


[<Selector xpath='text()' data=u'\xa3334.39pw'>] 


最 后 ， 还 可 以 通过 re( ) 方法 ， 串 联 上 正则 表达 式 ， 以 抽取 感 兴趣 的 


>>> response.css('.ad-price').xpath('text()').re('[.0- 


[u'334.39'] 


实际 上 ， 这 个 表达 式 与 原始 表达 式 相 比 ， 并 无 好 坏 之 差 。 请 把 它 当 作 
一 个 引起 思考 的 说 明 性 示例 。 在 本 书 中 ， 我 们 将 尽 可 能 保持 事物 简单 ， 同 
时 也 会 尽 可 能 多 地 使 用 虽然 有 些 老 旧 但 仍然 好 用 的 XPath。 关 键 点 是 记 住 
xpath() 和 css() 返回 的 Selector 对 象 是 可 以 被 串联 起 来 的 。 为 了 获 
取 真 实 值 ， 可 以 使 用 extract() ， 也 可 以 使 用 re() 。 在 Scrapy 的 每 个 新 
版 本 当中 ， 都 会 围绕 这 些 类 添加 新 的 令 人 兴奋 且 高 价值 的 功能 。 相 关 的 
Scrapy 文 档 部 分 为 
http://doc.scrapy.org/en/latest/topics/selectors.html 
o 该 文档 非常 优秀 ， 相 信 你 可 以 从 中 找到 抽取 数据 的 最 有 效 的 方式 。 


描述 文本 的 抽取 也 是 相似 的 。 有 一 个 
itemprop="description" 的 属性 用 于 标示 描述 。 其 XPath 表达 式 
为 //*[@itemprop="description"][1]/text()。 相 似 地 ， 住 
址 部 分 使 用 itemtype="http://schema.org/ Place" 注解 ， 因 
Uk, XPath 表达 式 为 //* 
[@itemtype="http://schema.org/Place"|[1]/text() ° 


同 理 ， 图 片 使 用 了 itemprop="image" 。 因 此 使 
用 //img[@itemprop="image"][1]/@src。 这 里 需要 注意 的 是 ， 
我 们 没有 使 用 /text () ， 这 是 因为 我 们 并 不 需要 任何 文本 ， 而 是 只 需 
要 包含 图 片 URL 的 src 属性 


假设 这 些 是 我 们 想 要 抽取 的 全 部 信息 ， 我 们 可 以 将 其 总 结 到 表 3.1 


//*[@itemprop="name"][1]/text() 


示例 值 : [u'set unique family well'] 


//*[@itemprop="price"][1]/text() 
示例 值 (使 用 re()) : [u'334.39'] 


基本 字段 XPath 表达 式 
//*[@itemprop="description"][1]/text() 
description _ 
示例 值 : [u'website court warehouse\r\npool...'] 


//*[@itemtype="http://schema.org/Place"][1]/text() 
address 

示例 值 : [u'Angel, London' ] 

//* [@itemprop="image"][1]/@src 
image_urls 

示例 值 : [u'../images/i01.jpg'] 


现在 ， 表 3.1 束 变 得 非常 重要 了 ， 因 为 如 末 我 们 有 许多 包含 相似 信 
恩 的 网 站 ， 则 很 可 能 需要 创建 很 多 类 似 的 仆 虫 ， 此 时 只 需 改变 前 面 的 
这 些 表达 式 。 此 外 ， 如 果 想 要 抓 取 大 量 网 站 ， 也 可 以 使 用 这 样 一 张 表 
格 来 拆 分 工作 量 。 


到 目前 为 止 ， 我 们 主要 在 使 用 HTML 和 XPath。 接 下 来 ， 我 们 将 开 
始 编 写 一 些 真 正 的 Python 代 码 。 


3.3 一 个 Scrapy 项 a 


到 目前 为 止 ， 我 们 只 是 在 通过 scrapy shell“ 小 打 小 曾 *。 现 在 ， 既 
然 已 经 拥有 了 用 于 开始 第 一 个 Scrapy 项 目的 所 有 必要 组 成 部 分 ， 那 么 
LERAM TEZ F Ctrl + D 退出 scrapy shell 吧 。 需 要 注意 的 是 ， 你 现在 输入 的 
所 有 内 容 都 将 丢失 。 显 然 ， 我 们 并 不 希望 在 每 次 仆 取 某 些 东西 的 时 候 


都 要 和 输入 代码 ， 因 此 一 定 要 谣 记 scrapy shell 只 是 一 个 可 以 帮助 我 们 调 
GUA ` XPath 表达 式 和 Scrapy 对 象 的 工具 。 不 要 花费 大 量 时 间 在 这 里 
编写 复杂 代码 ， 因 为 一 旦 你 退出 ， 这 些 代码 就 都 会 丢失 。 为 了 编写 真 
实 的 Scrapy 代 码 ， 我 们 将 使 用 项 目 。 下 面 创建 一 个 Scrapy 项 目 ， 并 将 
其 命名 为 "properties"， 因 为 我 们 正在 抓 取 的 数据 是 房产 。 


$ scrapy startproject properties 


$ cd properties 


$ tree 


| 一 properties 

| HF __init__.py 

| | 一 items.py 

| | 一 pipelines.py 

| | 一 settings. py 

| L— spiders 

| L— init__.py 


L— scrapy.cfg 


2 directories, 6 files 


提醒 一 下 ， 你 可 以 从 GitHub 中 获得 本 书 的 全 部 源 代 码 。 要 下 载 该 代 
码 ， 可 以 使 用 如 下 命令 : 


git clone https://github.com/scalingexcellence/ 


scrapybook 


本 章 的 代码 在 ch93 目录 中 ， 其 中 该 示例 的 代码 在 
ch03/properties 目录 中 。 


我 们 可 以 看 到 这 个 Scrapy 项 目的 目录 结构 。 命 令 scrapy 
startproject properties 创建 了 一 个 以 项 目 名 命名 的 目录 ， 其 
中 包含 3 个 我 们 感 兴趣 的 文件 ， 分 别 是 items.py 、pipelines.py 
和 settings.py。 这 里 还 有 一 个 名 为 spiders 的 子 目 录 ， 目 前 为 止 
该 目录 是 空 的 。 在 本 章 中 ， 我 们 将 主要 在 items .py 文件 和 spiders 


目录 中 工作 。 在 后 续 的 章 广 里 ， 还 将 对 设置 、 管 道 和 scrapy ,cfg X 
件 有 更 多 探索 。 


3.3.1 ”声明 item 


我 们 使 用 一 个 文件 编辑 器 打开 items ,py 文件 。 现 在 该 文件 中 已 
包含 了 一 些 模板 代码 ， 不 过 还 需要 针对 用 例 对 其 进行 修改 。 我 们 将 
eg 类 ， 添 加 表 3.2 中 总 结 出 来 的 字段 。 


我 们 还 会 添加 几 个 字段 ， 我 们 的 应 用 在 后 续 会 用 到 这 些 字 段 (这 
样 之 后 就 不 需要 再 修改 这 个 文件 了 ) 。 本 书后 续 的 内 容 会 深入 解释 它 
们 。 需 要 重点 注意 的 一 个 事情 是 ， 我 们 声明 一 个 字段 并 不 意味 着 我 们 
将 在 每 个 中 虫 中 都 填充 该 字段， 或 是 全 部 使 用 它 。 你 可 以 随意 添加 任 
何 你 感觉 合适 的 字段 ， 因 为 你 可 以 在 之 后 更 正 它 们 。 


表 3.2 


aa Python 表达 式 


道 将 会 基于 image_ 自动 填充 该 字段 。 可 以 在 
images 

= BS 
们 的 地 理 编码 管道 将 会 在 后 面 填充 该 字段 。 可 以 在 
location i 

N ZN 


我 们 还 会 添加 一 些 管理 字段 ( 见 表 3.3) 。 这 些 字段 不 是 特定 于 某 
个 应 用 程序 的 ， 而 是 我 个 人 感 兴 趣 的 字段 ， 可 能 会 在 未 来 帮助 我 调试 


息 虫 。 你 可 以 在 项 目 中 选择 其 中 的 一 些 字 段 ， 当 然 也 可 以 不 选择 。 如 
果 你 仔细 观察 这 些 字段 ， 就 会 明白 它们 可 以 让 我 清楚 何 地 (server ` 
url) 、 何 时 (date) 、 如 何 (spider) 执行 的 抓 取 。 它 们 还 可 以 目 动 完 
成 一 些 任 务 ， 比 如 使 item 失 效 、 规 划 新 的 抓 取 送 代 或 是 删除 来 自 有 问 
题 的 杷 虫 的 item。 如 采 你 还 不 能 理解 所 有 的 表达 式 ， 尤 其 是 server 的 表 

达 式 ， 也 不 用 担心 。 当 我 们 进入 到 后 面 的 章 世 时 ， 这 些 都 会 变 得 越 来 
越 清楚 。 


response.url 


示例 值 : "http://web.../property_000000. html' 


self.settings.get('BOT_NAME') 


示例 值 : 'properties' 


self .name 


示例 值 : 'basic' 


socket .gethostname() 


示例 值 : "scrapyserver1' 


datetime.datetime.now() 


示例 值 : datetime.datetime(2015, 6, 25... 


给 出 字段 列表 之 后 ， 再 去 修改 并 目 定 义 sScrapy startproject 
为 我 们 创建 的 PropertiesItem 类 ， 就 会 变 得 很 容易 。 在 文本 编辑 
器 中 ， 修 改 properties/items .py 文件 ， 使 其 包含 如 下 内 容 : 


from scrapy.item import Item, Field 


class PropertiesItem(Item): 
# Primary fields 
title = Field() 
price = Field() 
description = Field() 
address = Field() 
image_urls = Field() 


# Calculated fields 
images = Field() 
location = Field() 


# Housekeeping fields 
url = Field() 

project = Field() 
spider Field() 
server Field() 

date = Field() 


由 于 这 实际 上 是 我 们 在 文件 中 编写 的 第 一 个 Python 代码 ， 因 此 需 
要 重点 指出 的 是 ，Python 使 用 缩 进 作为 其 语法 的 一 部 分 。 在 每 个 字段 
的 起 始 部 分 ， 会 有 精确 的 4 个 空格 或 1 个 制 表 符 ， 这 一 点 非常 重要 。 如 
果 你 在 其 中 一 行使 用 了 4 个 空格 ， 而 在 另 一 行使 用 了 3 个 空格 ， 就 会 出 
现 语法 错误 。 如 果 你 在 其 中 一 行使 用 了 4 个 空格 ， 而 在 另 一 行使 用 了 制 
表 符 ， 同 样 也 会 产生 语法 错误 。 这 些 空格 在 PropertiesItem 类 
下 ， 将 字段 声明 组 织 到 了 一 起 。 其 他 语言 一 般 使 用 大 括号 ({}) 或 特 
殊 的 关键 词 (如 begin-end ) 来 组 织 代 码 ， 而 Python 使 用 空格 。 


3.3.2 Ba Mee 


我 们 已 经 在 半路 上 了 “。 现 在 ， 我 们 需要 编写 聆 虫 。 通 音 ， 我 们 会 
为 每 个 网 站 或 网 站 的 一 部 分 《如果 网 站 非常 大 的 话 ) 创建 一 个 聆 虫 。 
EERE T ERAUR IM 流 程 ， 我 们 很 快 就 可 以 看 到 。 


什么 时 候 使 用 息 虫 ， 什 么 时 候 使 用 项 目 呢 ?项 目 是 由 Item METE 
虫 组 成 的 。 如 果 有 很 多 网 站 ， 并 且 需 要 从 中 抽取 相同 类 型 的 Item ， 比 
如 : 房产 ， 那 么 所 有 这 些 网 站 都 可 以 使 用 同一 个 项 目 ， 并 且 为 每 个 源 /网 站 : 
ARNO KZ, UREA PANNE, MURR 
使 用 不 同 的 项 目 。 


当然 ， 可 以 在 文本 编辑 屡 中 从 头 开 始 创建 一 个 私 虫 ， 不 过 为 了 减 
少 一 些 输入 ， 更 好 的 方法 是 使 用 scrapy genspider 命令 ， 如 下 所 
示 。 
$ scrapy genspider basic web 


Created spider 'basic' using template 'basic' in module: 


properties.spiders.basic 


现在 ， 如 果 再 次 运行 tree 命令 ， 就 会 注意 到 与 之 前 相 比 唯一 的 
不 同 是 在 properties/spiders 目录 中 增加 了 一 个 新 文件 
basic.py。 前 面 的 命令 所 做 的 工作 就 是 创建 了 一 个 名 为 "basic" 


的 “默认 ”让 虫 ， 并 且 该 疏 虫 被 限制 为 只 能 朴 取 web 域名 下 的 URL 。 如 
果 需 要 的 话 ， 可 以 很 容易 地 移 除 这 个 限制 ， 不 过 目前 来 说 没有 问题 。 
(RAGE AR" basic" 模板 创建 。 你 可 以 通过 输入 scrapy 
genspider -1 来 查看 其 他 可 用 的 模板 ， 然 后 在 执行 scrapy 
genspider 时 ， 通 过 -t 参数 ， 使 用 任意 其 他 模板 创建 怜 虫 。 在 本 章 
稍 后 的 部 分 ， 我 们 将 会 看 到 一 个 示例 。 


Scrapy 有 许多 子 目 录 。 我 们 一 般 假 设 你 位 于 包含 scrapy .cfg 文件 的 
目录 中 。 这 是 项 目的 “顶级 ”目录 。 现 在 ， 每 当 我 们 引用 Python“ 包 ”和 “ 模 
块 " 时 ， 它 们 就 是 以 映射 目录 结构 的 方式 设置 的 。 比 如 ， 输 出 提 到 了 
properties.spiders.basic ， 束 是 指 properties/spiders 目录 
中 的 basic .py 文件 。 我 们 早 前 定义 的 PropertiesItem 类 是 在 
properties.items 模块 中 ， 该 模块 对 应 的 就 是 properties 目录 中 的 
items.py 文件 。 


如 果 查 看 properties/spiders/basic,py 文件 ， 可 以 看 到 如 
下 代码 。 


import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed_domains = ["web"] 
start_urls = ( 
"http://www.web/', 


def parse(self, response): 
pass 


import 语句 能 够 让 我 们 使 用 Scrapy 框 架 中 已 有 的 类 。 下 面 是 扩 
展 自 scrapy .Spider 的 BasicSpider 类 的 定义 。 通 过 “扩展 ”的 方 
式 ， 尽 管 我 们 实际 上 没有 写 任何 代码 ， 但 是 该 类 已 经 “继承 ”了 Scrapy 
框架 中 的 Spider 类 的 相当 一 部 分 功能 。 这 样 ， 就 可 以 只 额外 编写 少 
量 的 代码 行 ， 而 获得 一 个 完整 运行 的 候 虫 了 。 然 后 ， 我 们 可 以 看 到 一 
些 爬 虫 的 参数 ， 比 如 它 的 名 字 以 及 我 们 允许 其 爬 取 的 域名 。 最 后 是 罕 
函数 parse() 的 定义 ， 该 函数 包含 了 两 个 参数 ， 分 别 是 seLf 和 
response 对 象 。 通 过 使 用 selLf 引用 ， 我 们 就 可 以 使 用 扑 虫 中 感 兴 
趣 的 功能 了 。 而 另 一 个 对 象 response ， 我 们 应 该 很 熟悉 ， 它 就 是 我 
们 在 scrapy shell 中 使 用 过 的 response 对 象 。 


这 是 你 的 代码 一 一 你 的 候 虫 。 不 要 害怕 修改 它 ， 你 不 会 真 的 把 事情 搞 


砸 的 。 即 使 在 最 坏 的 情况 下 ， 你 还 可 以 使 用 
rmproperties/spiders/basic.py* 删除 文件 ， 然 后 再 重新 生成 。 
情 发 挥 吧 ! 


Al 


好 了 ， 让 我 们 开始 改造 吧 。 首 先 ， 要 使 用 在 scrapy shell 中 使 用 过 
的 那个 URL， 对 应 地 设置 到 start_urls BAH AS, KRAMER 
预定 义 的 方法 1og( ) ， 输 出 在 基本 字段 表 中 总 结 的 所 有 内 容 。 修 改 
后 ，properties/spiders/basic,py 的 代码 如 下 所 示 。 


import scrapy 


class BasicSpider(scrapy.Spider ): 
name = "basic" 


allowed_domains = ["web"] 
start_urls = ( 


"http://web:9312/properties/property_000000.htm1', 
) 


def parse(self, response): 
self.log("title: %s" % response. xpath( 
'//* [@itemprop="name"][1]/text()').extract()) 
self.log("price: %s" % response. xpath( 
'//* [@itemprop="price"][1]/text()').re('[.0-9]+')) 
self.log("description: %s" % response. xpath( 
'//* [@itemprop="description"][1]/text()').extract()) 
self.log("address: %s" % response. xpath( 
'//*[@itemtype="http://schema.org/' 
"Place"][1]/text()').extract()) 
self.log("image_urls: %s" % response. xpath( 
'//* [@itemprop="image"][1]/@src').extract()) 


我 将 会 不 时 地 修改 格式 ， 以 便 在 屏幕 和 纸张 中 都 能 很 好 地 显示 。 这 并 
不 意味 着 它 有 什么 特殊 的 含义 。 


等 了 这 么 久 ， 终 于 到 了 运行 疏 虫 的 时 候 了 。 我 们 可 以 使 用 命令 
scrapy crawl 以 及 息 虫 的 名 称 来 运行 仆 虫 。 


$ scrapy crawl basic 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Spider opened 


DEBUG: Crawled (200) <GET http://...000.html> 


DEBUG: title: [u'set unique family well'] 


DEBUG: price: [u'334.39'] 


DEBUG: description: [u'website...'] 


DEBUG: address: [u'Angel, London' ] 


DEBUG: image_urls: [u'../images/i01.jpg'] 


INFO: Closing spider (finished) 


非常 好 ! 不 要 被 大 量 的 日 志 行 吓 倒 。 我 们 将 会 在 后 续 的 章节 中 更 


详细 地 研究 其 中 的 一 部 分 ， 不 过 对 于 现在 而 言 ， 只 需要 注意 到 所 有 使 
用 XPath 表 达 式 收集 到 的 数据 确实 能 够 通过 这 个 人 简单 的 仆 虫 代码 抽取 出 
来 束 可 以 了 。 

让 我 们 再 来 试验 一 下 另 一 个 命令 : scrapy parse。 它 允许 我 们 


使 用 “最 合适 ”的 仆 虫 来 解析 参数 中 给 定 的 任意 URL。 我 不 喜欢 抱 有 侯 
幸 心 理 ， 所 以 我 们 使 用 它 结合 --spider 人 参数 来 设置 爬虫 。 


$ scrapy parse --spider=basic 
http: //web:9312/properties/property_ 000001.， 


html 


| 


你 会 看 到 输出 和 之 前 是 相似 的 ， 只 不 过 现在 是 另 一 套房 产 。 


scrapy parse 同样 也 是 一 个 相当 方便 的 调试 工具 。 在 任何 情况 
下 ， 如 果 你 想 “ 认 真 ” 抓 取 的 话 ， 应 当 使 用 主 命令 scrapy crawl 。 


3.3.3 Titem 


我 们 将 会 对 前 面 的 代码 进行 少量 修改 ， 以 填充 PropertiesItem 
。 你 将 会 看 到 ， 尺 管 修 改 非常 轻微 ,但 是 会 “解锁 ”大 量 的 新 功能 


首先 ， 需 要 引入 PropertiesItem 类 。 如 前 所 述 ， 它 在 
properties 目录 的 items .py 文件 中 ， 也 就 是 
properties.items 模块 中 。 我 们 回 到 
properties/spiders/basic.py 文件 ， 使 用 如 下 命令 引入 该 模 
块 。 


from properties.items import PropertiesItem 


然后 需要 进行 实例 化 ， 并 返回 一 个 对 象 。 这 非常 简单 。 在 
parse() 方法 中 ， 可 以 通过 添加 item = PropertiesItem( ) 语句 
创建 一 个 新 的 item， 然 后 可 以 按 如 下 方式 为 其 字段 分 配 表达 式 。 


item['title'] = 
response. xpath('//*[@itemprop="name"][1]/text()').extract() 


最 后 ， 使 用 return item 返回 item。 最 新 版 的 
properties/spiders/basic. py 代码 如 下 所 示 。 


import scrapy 
from properties.items import PropertiesItem 


class BasicSpider(scrapy.Spider ): 
name = "basic" 
allowed_domains = ["web"] 
start_urls = ( 
'http://web:9312/properties/property_000000.htm1', 
) 


def parse(self, response): 

item = PropertiesItem( ) 

item['title'] = response. xpath( 
'//*[@itemprop="name"][1]/text()').extract() 

item[ 'price'] = response. xpath( 
'//*[@itemprop="price"][1]/text()').re('[.0-9]+') 

item['description'] = response. xpath( 
'//*[@itemprop="description"][1]/text()').extract() 

item['address'] = response. xpath( 
'//*[@itemtype="http://schema.org/' 
"Place"][1]/text()').extract() 

item[ 'image_urls'] = response. xpath( 
'//* [@itemprop="image"][1]/@src').extract() 

return item 


现在 ， 如 果 你 再 像 之 前 那样 运行 scrapy crawl basic, WE 
发 现 一 个 非常 小 但 很 重要 的 区 别 。 我 们 不 再 在 日 志 中 记录 抓 取 值 (所 
以 没有 包含 字段 值 的 DEBUG: 行 了 ) ， 而 是 看 到 如 下 的 输出 行 。 


DEBUG: Scraped from <200 
http://...000.htm1> 
{'address': [u'Angel, London'], 
‘description': [u'website ... offered'], 
'image_urls': [u'../images/i01.jpg'], 
"price': [u'334.39'], 


'title': [u'set unique family well']} 


这 是 从 本 页 面 抓 取得 到 的 PropertiesItem 。 非 常 好 ， 因 为 
Scrapy 是 围绕 着 Items 的 概念 构建 的 ， 也 就 是 说 你 现在 可 以 使 用 后 续 
章 市 中 介绍 的 管道 ， 对 其 进行 过 滤 和 丰富 了 ， 并 且 可 以 通过 “Feed 
exports” 将 其 以 不 同 的 格式 导出 存储 到 不 同 的 地 方 。 


3.3.4 ”保存 文件 
请 和 芝 试 如 下 疏 取 示例 。 


$ scrapy crawl basic -o items.json 


$ cat items.json 


[{"price": ["334.39"], "address": ["Angel, London"], 
"description": 


["website court ... offered"], "image_urls": 
["../images/i01.jpg"], 


"title": ["set unique family well"]}] 


$ scrapy crawl basic -o items.jl 


$ cat items.jl 


{"price": ["334.39"], "address": ["Angel, London"], "description": 


["website court ... offered"], "image_urls": 
["../images/i01.jpg"], 


"title": ["set unique family well"]} 


$ scrapy crawl basic -o items.csv 


$ cat items.csv 


description, title, url, price, spider, image_urls... 


"_...offered",set unique family well, ,334.39,,../images/i01.jpg 


$ scrapy crawl basic -o items. xml 


$ cat items.xml 


<?xml version="1.0" encoding="utf-8"?> 


<items><item><price><value>334.39</value></price>. ..</item> 
</items> 


我 们 不 需要 编写 任何 额外 的 代码 ， 融 可 以 保存 为 这 些 不 同 的 格 
式 。Scrapy 在 蒂 后 识别 你 想 要 输出 的 文件 扩展 名 ， 并 以 适当 的 格式 输 


出 到 文件 中 。 前 面 的 格式 覆盖 了 一 些 最 常见 的 用 例 。CSV 和 XML 文件 
非常 流行 ， 因 为 类 似 微软 Excel 的 电子 表格 程序 可 以 直接 打开 它们 。 
JSON 文 件 在 网 上 非常 PLT, RAEE EARI m H JavaScript 
的 关系 相当 密切 。JSON 与 JSON 行 (JSON Line) 格式 的 轻微 不 同 

Æ, json 文件 是 在 一 个 大 数组 中 存储 JSON 对 象 的 。 这 吏 意 味 着 如 
果 你 有 一 个 1GB 的 文件 ， 你 可 能 不 得 不 在 使 用 典型 的 解析 器 解析 之 


前 ， 将 其 全 部 存 入 内 存 当 中 。 而 ,jl1 文件 则 是 每 行 包含 一 个 JSON 对 
象 ， 所 以 它们 可 以 被 更 高 效 地 读 取 。 


将 你 生成 的 文件 保存 到 文件 系统 之 外 的 地 方 也 很 容易 。 比 如 ， 通 
过 使 用 如 下 命令 ，Scrapy 可 以 目 动 将 文件 上 传 到 FTP 或 53 存 储 桶 中 。 


$ scrapy crawl basic -o 
"ftp: //user :pass@ftp.scrapybook.com/items.json " 


$ scrapy crawl basic -o 
"s3://aws_key:aws_secret@scrapybook/items. json" 


需要 注意 的 是 ， 除 非 插 证 和 URL 都 更 新 为 气 有 效 的 主机 /S3 提 供 商 
相 匹 本 ， 否 则 该 示例 无 法 工作 。 


我 的 MySQL 驱 动 在 哪里 ? 起 初 ， 我 也 对 Scrapy 缺 少 针对 MySQL 或 其 
他 数据 库 的 内 置 支 持 感 到 惊讶 。 而 实际 上 ， 没 有 什么 是 内 置 的 ， 这 与 
Scrapy 的 思考 方式 是 完全 违背 的 。Scrapy 的 目标 是 快速 和 可 扩展 。 它 使 用 
了 很 少 的 CPU， 以 及 尽 可 能 高 的 入 站 带宽 。 从 性 能 的 角度 来 看 ， 将 数据 捐 
入 到 大 部 分 关系 型 数据 库 将 会 是 一 场 灾 难 。 当 需要 将 item 插 入 到 数据 库 
时 ， 必 须 将 其 先 存储 到 文件 当中 ， 然 后 再 使 用 批量 加 载 机 制导 入 它们 "在 ， 
第 9 章 中 ， 我 们 将 会 看 到 多 种 高 效 的 方式 ， 用 来 将 独立 的 item 导 入 到 数据 库 


oon 


= 


这 里 需要 注意 的 男 一 件 事 是 ， 如 有 果 你 现在 竹 试 使 用 scrapy 
parse ， 它 会 向 你 显示 已 经 抓 取 的 item， 以 及 你 的 爬 取 生成 的 新 请 求 
(本 例 中 没有 ) ° 


$ scrapy parse --spider=basic 
http://web:9312/properties/property_000001. 


html 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Spider closed (finished) 


>>> STATUS DEPTH LEVEL 1 <<< 


# Scraped Items ------------------------------------------------ 


[{'address': [u'Plaistow, London'], 


'description': [u'features'], 


'image_urls': [u'../images/i02.jpg'], 


'price': [u'388.03'], 


'title': [u'belsize marylebone...deal']}] 


# Requests ------------------------------------------------ 


[] 


在 调试 给 出 意料 之 外 的 结果 的 URL 时 ， 你 会 更 加 感激 scrapy 


parse 。 


3.3.5 “清理 ”item 装载 器 与 管理 字段 
茶 喜 ， 你 在 创建 基础 聆 虫 方面 做 得 不 错 ! 下 面 让 我 们 做 得 更 专业 


一 些 吧 o 


首先 ， 我 们 使 用 一 个 强大 的 工具 类 一 一 ItemLoader ， 以 赫 代 那 
些 杂 乱 的 extract() 和 xpath() 操作 。 通 过 使 用 该 类 ， 我 们 的 
parse() 方法 会 按 如 下 进行 代码 变更 。 


def parse(self, response): 
= ItemLoader(item=PropertiesItem(), response=response) 


.add_xpath('title', '//*[@itemprop="name"][1]/text()') 

.add_xpath('price', './/*[@itemprop="price"]' 
'[1]/text()', re='[, .0-9]+') 

.add_xpath('description', '//*[@itemprop="description"]' 


'[1]/text()') 
.add_xpath('address', '//*[@itemtype=' 
'http://schema.org/Place"][1]/text()') 
.add_xpath('image_urls', '//*[@itemprop="image"][1]/@src' ) 


return 1.load_item() 


好 多 了 ， 是 不 是 ? 不 过 ， 这 种 写法 并 不 只 是 在 视觉 上 更 加 舒适 ， 
它 还 非常 明确 地 声明 了 我 们 意图 去 做 的 事情 ， 而 不 会 将 其 与 实现 细 市 
混 消 起 来 。 这 驳 使 得 代码 具有 更 好 的 可 维护 性 以 及 目 描述 性 。 


ItemLoader 提供 了 许多 有 趣 的 结合 数据 及 对 数据 进行 格式 化 和 
清洗 的 方式 。 请 注意 ， 此 类 功能 的 开发 非常 活跃 ， 因 此 请 查阅 Scrapy 
优秀 的 官方 文档 来 发 现 使 用 它们 的 更 高 效 的 方式 ， 文 档 地 址 为 
http://doc.scrapy.org/en/latest/topics/loaders.htm 
1 ° Itemloaders 通过 不 同 的 处 理 类 传递 XPath/CSS 表 达 式 的 值 。 处 
理 器 是 一 个 快速 而 又 简单 的 函数 。 处 理 器 的 一 个 例子 是 Join( ) 。 假 
设 你 已 经 使 用 类 似 /Vp 的 XPath 表达 式 选取 了 很 多 个 段落 ， 该 处 理 需 
可 以 将 这 些 段落 结合 成 一 个 条 目 。 另 一 个 非常 有 意思 的 处 理 器 是 
MapCompose() 。 通 过 该 处 理 器 ， 你 可 以 使 用 任意 Python 函数 或 
Python 函数 链 ， 以 实现 复杂 的 功能 。 比 如 ，MapCompose(float ) 可 
以 将 字符 串 数 据 转换 为 数值 ， 而 MapCompose(Unicode.strip， 
Unicode.title) 可 以 删除 多 余 的 空白 符 ， 并 将 字符 串 格 式 化 为 每 
个 单词 均 为 首 字母 大 写 的 样式 。 让 我 们 看 一 些 处 理 器 的 例子 ， 如 表 3.4 
所 示 。 


MapCompose(unicode.strip) | 去 除 首 尾 的 空白 符 


MapCompose(unicode.strip, | 与 Mapcompose(unicode.strip) 相同 ， 不 过 还 会 使 结 细 


unicode. title) 按照 标题 格式 


处 理 器 功 能 


MapCompose(lambda i: 


i.replace 将 字符 串 转 为 数值 ， 并 忽略 可 能 存在 的 ,字符 


(',', ''), float) 


MapCompose(lambda i: 

urlparse. 以 response.url 为 基础 ， 将 URL 相 对 路 径 转换 为 URL 
urljoin (response.url, 绝对 路 径 
i)) 


你 可 以 使 用 任何 Python 表达 式 作为 处 理 器 。 可 以 看 到 ， 我 们 可 以 
很 容易 地 将 它们 一 个 接 一 个 地 连接 起 来 ， 比 如 ， 我 们 前 面 给 出 的 去 除 
首尾 空 日 符 以 及 标题 化 的 例子 。unicode.strip() 和 
unicode.title() 在 某 种 意义 上 来 说 比较 简单 ， 它 们 只 有 一 个 参 
数 ， 并 且 也 只 有 一 个 返回 结果 。 我 们 可 以 在 MapCompose 处 理 属 中 直 
接 使 用 它们 。 而 另 一 些 画 数 ， 像 replace( ) 或 ur1join() ， 就 会 稍 
微 有 点 复杂 ， 它 们 需要 多 个 参数 。 对 于 这 种 情况 ， 我 们 可 以 使 用 
Python 的 “lambda 表 达 式 ”。1lambda 表 达 式 是 一 种 简洁 的 函数 。 比 如 下 
面 这 个 简洁 的 lambda 表 达 式 。 


myFunction = lambda i: i.replace(',', '') 


BY DME: 


def myFunction(i): 
return i.replace(',', '') 


通过 使 用 lambda， 我 们 将 类 似 replace() #lurljoin( ) 这 样 的 
函数 包装 在 只 有 一 个 参数 及 一 个 返回 结果 的 函数 中 。 为 了 能 够 更 好 地 
理解 表 3.4 中 的 处 理 器 ， 下 面 看 儿 个 使 用 处 理 器 的 例子 。 使 用 scrapy 
shell 打开 任意 URL， 然 后 尝试 如 下 操作 。 


>>> from scrapy.loader.processors import MapCompose, Join 


>>> Join()(['hi', 'John']) 


u'hi John' 


>>> MapCompose(unicode.strip)([u' I',u' am\n']) 


[u'LI', u'am'] 


>>> MapCompose(unicode.strip, unicode.title)([u'nIce cODe']) 


[u'Nice Code' ] 


>>> MapCompose(float)(['3.14']) 


[3.14] 


>>> MapCompose(lambda i: i.replace(',', ''), float)(['1,400.23']) 


[1400.23] 


>>> import urlparse 


>>> mc = MapCompose(lambda i: 
urlparse.urljoin( 'http://my.com/test/abc', 


i)) 


>>> mc([ 'example.html#check' ]) 


['http://my.com/test/example.html#check' ] 


>>> mc([ 'http://absolute/url#help' ]) 


['http://absolute/url#help' ] 


这 里 要 解决 的 天 键 问题 是 ， 处 理 器 只 是 一 些 稍 单 小 巧 的 功能 ， 用 
来 对 我 们 的 XPath/CSS 结 果 进 行 后 置 处 理 。 现 在 ， 在 候 虫 中 使 用 几 个 
这 样 的 处 理 右 ， 并 按照 我 们 想 要 的 方式 输出 。 


def parse(self, response): 
l.add_xpath('title', '//*[@itemprop="name"][1]/text()', 

MapCompose(unicode.strip, unicode.title) ) 

.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), float), 
re='[,.0-9]+') 

.add_xpath('description', '//*[@itemprop="description"]' 
'[1]/text()', MapCompose(unicode.strip), Join()) 


.add_xpath('address', 
'//* [@itemtype="http://schema.org/Place"][1]/text()', 
MapCompose(unicode.strip) ) 

.add_xpath('image_urls', '//*[@itemprop="image"][1]/@src', 
MapCompose( 
lambda i: urlparse.urljoin(response.url, i))) 


完整 列表 将 会 在 本 章 后 续 部 分 给 出 。 当 你 使 用 我 们 目前 开发 的 代 
码 运行 Scrapy crawl basic 时 ， 可 以 得 到 更 加 整洁 的 输出 值 。 


'price': [334.39], 


'title': [u'Set Unique Family Well'] 


最 后 ， 我 们 可 以 通过 使 用 add_value( ) 方法 ， 添 加 Python 计 算 
得 出 的 单个 值 (而 不 是 XPath/CSS 表 达 式 ) 。 我 们 可 以 用 该 方法 设 
置 “ 管 理 字段 "， 比 如 URL、 扑 虫 名 称 、 时 间 淮 等 。 我 们 还 可 以 直接 使 
用 管理 字段 表 中 总 结 出 来 的 表达 式 ， 如 下 所 示 。 


.add_value('url', response.url) 
.add_value('project', self.settings.get('BOT_NAME' ) ) 
.add_value('spider', self.name) 


.add_value('server', socket.gethostname() ) 
.add_value('date', datetime.datetime.now() ) 


为 了 能 够 使 用 其 中 的 某 些 函数 ， 请 记得 引入 datetime 和 
socket 模块 。 


FT! 我 们 现在 已 经 得 到 了 非常 不 错 的 Item。 此刻， 你 的 第 一 
感觉 可 能 是 所 做 的 这 些 都 很 复杂 ， 你 可 能 想 要 知道 这 些 工作 是 不 是 值 
得 付出 努力 。 答 案 当 然 是 值得 的 一 一 这 征 因 为 ， 这 束 是 你 为 了 从 页 面 
抽取 数据 并 将 其 存储 到 Item 中 几乎 所 有 需要 知道 的 东西 。 如 采 你 从 
零 开始 编写 ， 或 者 使 用 其 他 语言 ， 该 代码 通常 都 会 非常 难看 ， 而 且 很 


快 就 会 变 得 不 可 维护 。 而 使 用 Scrapy 时 ， 只 需要 仅仅 25 行 代码 。 该 代 
码 十 分 人 简洁， 用 于 表明 意图 ， 而 不 是 实现 细节 。 你 清楚 地 知道 每 一 行 
代码 都 在 做 什么 ， 并 且 它 可 以 很 容易 地 修改 、 复 用 及 维护 。 


你 可 能 产生 的 另 一 个 感觉 是 所 有 的 处 理 器 以 及 ItemLoader 并 不 
值得 去 努力 。 如 果 你 是 一 个 经 验 丰富 的 Python 开发 者 ， 可 能 会 觉得 有 
些 不 舒服 ， 因 为 你 必须 去 学 习 新 的 类 ， 来 实现 通常 使 用 字符 串 操作 、 
lambda 表 达 式 以 及 列表 推导 式 束 可 以 完成 的 操作 。 不 过 ， 这 只 是 
ItemLoader 及 其 功能 的 简要 概述 。 如 果 你 更 加 深入 地 了 解密 ， 束 不 
会 再 回 尖 了。ItemLoader 和 处 理 器 是 基于 编写 并 支持 了 成 千 上 万 个 
扑 忠 的 人 们 的 抓 取 需求 而 开发 的 工具 包 。 如 果 你 准备 开发 多 个 仆 虫 的 
话 ， 束 非常 值得 去 学 习 使 用 它们 。 


3.3.6 ”创建 contract 


contract 有 点 像 为 仆 忠 设计 的 单元 测试 。 它 可 以 让 你 快速 知道 哪里 
有 运行 异常 。 例 如 ， 假 设 你 在 儿 个 星期 之 前 编写 了 一 个 抓 取 程序 ， 其 
Pee ILA, SRM Pik ee Ba PA Be A EH L 
作 ， 就 可 以 使 用 这 种 方式 。contract 包 含 在 紧 挨 着 函数 名 的 注释 ( 即 文 
MFR) 中 ， 并 且 以 @ 开 头 。 下 面 来 看 几 个 contract 的 例子 。 


def parse(self, response): 
""" This function parses a property page. 


@url http://web:9312/properties/property_000000.htm1 
@returns items 1 
@scrapes title price description address image_urls 


@scrapes url project spider server date 
"uN 


上 述 代 码 的 含义 是 ， 检 查 该 URL， 并 找到 我 列 出 的 字段 中 有 值 的 
一 个 Item。 现 在 ， 当 你 运行 scrapy check 时 ， 束 会 去 检查 contract 是 
否 能 够 满足 。 


$ scrapy check basic 


如 果 将 ur1l 字段 留 空 〈 通 过 注释 掉 该 行 来 设置 ) ， 你 会 得 到 一 个 
失败 描述 o 


[basic] parse (@scrapes post-hook ) 


ContractFail: 'url' field is missing 


contract KWAS x A AT Be EM CAS ACTA ISAT, BC ee VR he 
URL 的 XPath 表达 式 已 经 过 时 了 “。 虽 然 结 果 并 不 详尽 ， 但 它 征 抵御 坏 代 
码 的 第 一 道 灵巧 的 防线 。 


综合 上 面 的 内 容 ， 下 面 给 出 我 们 的 第 一 个 基础 朴 虫 的 代码 。 


from scrapy.loader.processors import MapCompose, Join 
from scrapy.loader import ItemLoader 

from properties.items import PropertiesItem 

import datetime 

import urlparse 

import socket 

import scrapy 


class BasicSpider(scrapy.Spider ): 
name = "basic" 
allowed_domains = ["web"] 


# Start on a property page 
start_urls = ( 

'http://web: 9312/properties/property_000000.htm1', 
) 


def parse(self, response): 
""" This function parses a property page. 
@url http://web:9312/properties/property_000000.htm1 
@returns items 1 
@scrapes title price description address image_urls 
@scrapes url project spider server date 
"uN 
# Create the loader using the response 
1 = ItemLoader(item=PropertiesItem(), response=response) 


# Load fields using XPath expressions 
l.add_xpath('title', '//*[@itemprop="name"][1]/text()', 
MapCompose (unicode . strip, unicode.title)) 


l.add_xpath('price', ' e ey 
MapCompose (lambda i: i.replace(',' DF 
float), 


re='[,.0-9]+') 
l.add_xpath('description', '//*[@itemprop="description"]' 
'[1]/text()', 
MapCompose(unicode.strip), Join()) 
l.add_xpath('address', 
'//*[Qitemtype="http://schema.org/Place"]' 
'[1]/text()', 
MapCompose(unicode.strip) ) 
l.add_xpath('image_urls', '//*[@itemprop="image"]' 
'[1]/@src', MapCompose( 
lambda i: urlparse.urljoin(response.url, i))) 


# Housekeeping fields 
l.add_value('url', response.url) 


l.add_value('project', self.settings.get('BOT_NAME' ) ) 
l.add_value('spider', self.name) 
l.add_value('server', socket.gethostname() ) 
l.add_value('date', datetime.datetime.now() ) 


return 1.load_item() 


3.4 抽取 更 多 的 URL 


到 目前 为 止 ， 我 们 使 用 的 只 是 设置 在 爬虫 的 start_urls 属性 中 
的 单一 URL。 而 该 属性 实际 为 一 个 元 组 ， 我 们 可 以 人 硬 编码 写 入 更 多 的 
URL， 如 下 所 示 。 


start_urls = ( 
'http://web:9312/properties/property_000000.html', 
'http://web:9312/properties/property_000001.html', 


'http://web:9312/properties/property_000002.html', 
) 


这 种 写法 可 能 不 会 让 你 太 激 动 。 不 过 ， 我 们 还 可 以 使 用 文件 作为 
URL 的 产 ， 写 法 如 下 所 示 。 


start_urls = [i.strip() for i in 
open('todo.urls.txt').readlines()] 


这 种 写法 其 实 也 不 那么 令 人 激动 ， 但 它 确实 管用 。 更 经 常 发 生 的 
情况 旦 感 兴趣 的 网 站 中 包含 一 些 索 引 页 及 房 源 页 。 比 如 ，Gumtree 殉 包 
含 了 如 图 3.7 所 示 的 索引 页 ， 其 地 址 为 


http://www.gumtree.com/flats-houses/london œ 


93,495 adsin Property,London 


m looking for a n 产 
ir try room fiat ouble room london 1 bedroom flat singleroom pom to rent 
Listing link 
Most recent first $ 
Q refine Vs Nn ct din mane atop “fer” Wei hilla mel £330pw 
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LJ á pagination next page es 
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Categories 
All Categories 
Property x 


图 3.7” Gumtree 的 索引 页 


一 个 典型 的 索引 页 会 包含 许多 到 房 源 页 面 的 链接 ， 以 及 一 个 能 够 


让 你 从 一 个 索引 页 前 往 男 一 个 索引 页 的 分 页 系统 。 


因此 ， 一 个 典型 的 仆 虫 会 向 两 个 方向 移动 ( 见 图 3.8) 


图 3.8 向 两 个 方向 移动 的 典型 爬虫 


从 一 个 索引 页 到 男 一 个 索引 页 ; 
从 一 个 索引 页 到 房产 页 并 抽取 Item。 


。 HH 
e JE 


在 本 书 中 ， 我 们 将 前 者 称 为 水 平息 到 ， 因 为 这 种 情况 下 是 在 同一 
ER MERRE URSA) ;而 将 后 者 称 为 垂直 疏 取 ， 因 为 该 方 
式 是 从 一 个 更 高 的 层级 (比如 索引 页 到 一 个 更 低 的 层级 〈 比 如 房 源 
Tt) ° 


实际 上 ， 它 比 听 起 来 更 加 容易 。 我 们 所 有 需要 做 的 事情 就 是 再 增 
加 两 个 XPath 表达 式 。 对 于 第 一 个 表达 式 ， 石 键 单 击 Next Page 按钮 ， 
可 以 注意 到 URL 包 含 在 一 个 链接 中 ， 而 该 链接 又 是 在 一 个 拥有 类 名 
next 的 1i 标签 内 ， 如 图 3.9 所 示 。 因 此 ， 我 们 只 需 使 用 一 个 实用 的 


Earls Court, London 
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><a href="/flats—houses/london/page2" class="btn-secondary" title="Next page">.. /a> gi 
</li> -$ 
> <li class="frm-more" aria-hidden="true" data-pagiantion="pagination-main-srp-1">..</li> P 
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图 3.9 查找 下 一 个 索引 页 URL 的 XPath 表达 式 


对 于 第 二 个 表达 式 ， 碳 键 单 击 页 面 中 的 列表 标题 ， 并 选择 Inspect 
Element ， 如 图 3.10 所 示 。 
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图 3.10 ”查找 列表 页 URL 的 XPath 表达 式 


请 注意 ，UREL 中 包含 我 们 感 兴 趣 的 itemprop="ur1" 属性 。 
此 ， 表 达 式 //*[@itemprop="ur1l"]/@href 就 可 以 正常 运行 。 现 
在 ， 打 开 一 个 scrapy shell 来 确认 这 两 个 表达 式 是 否 有 效 : 


$ scrapy shell http://web:9312/properties/index_00000.htm1 


>>> urls = response. xpath('//* 
[contains(@class, "next")]//@href').extract() 


>>> urls 


[u'index_00001.htm1' ] 


>>> import urlparse 


>>> [urlparse.urljoin(response.url, i) for i in urls] 


[u'http: //web:9312/scrapybook/properties/index_00001.htm1' ] 


>>> urls = response. xpath('//*[@itemprop="url"]/@href').extract() 


>>> urls 


[u'property_000000.htm1', ... u'property_000029.htm1' ] 


>>> len(urls) 


30 


>>> [urlparse.urljoin(response.url, i) for i in urls] 


[u'http://..._000000.htm1', ... /property_000029.htm1' ] 


| 


非常 好 ! 可 以 看 到 ， 通 过 使 用 之 前 已 经 学 习 的 内 容 及 这 两 个 XPath 
表达 式 ， 我 们 已 经 能 够 按照 自身 需求 使 用 水 平 抓 取 和 垂直 抓 取 的 方式 
抽取 URL 了 ° 


3.4.1 fe FAC SCENE 
BATT CZ BAC FS LB — OE, Fea Amanual. py 


$ ls 


properties scrapy.cfg 


$ cp properties/spiders/basic.py properties/spiders/manual . py 


7Eproperties/spiders/manual.py 文件 中 ， 通 过 添加 from 
scrapy.http import Request 语句 引入 Request Mik, Ge 
的 name 参数 改 为 'manual' ， 修 改 start_urls 以 使 用 第 一 个 索引 
页 ， 并 将 parse( ) 方法 重 命名 为 parse_item() 。 好 了 ! 现在 开始 
编写 一 个 新 的 parse( ) 方法 ， 来 实现 水 平和 垂直 两 种 抓 取 方式 。 


def parse(self, response): 
# Get the next index URLs and yield Requests 
next_selector = response. xpath('//*[contains(@class, ' 
next") ]//@href ' ) 
for url in next_selector.extract(): 


yield Request(urlparse.urljoin(response.url, url)) 


# Get item URLs and yield Requests 
item_selector = response.xpath('//*[@itemprop="url"]/@href' ) 
for url in item_selector.extract(): 
yield Request(urlparse.urljoin(response.url, url), 
callback=self.parse_item) 


你 可 能 已 经 注意 到 了 前 面 例子 中 的 yield 语句 。yield Sreturn 
在 某 种 意义 上 来 说 有 些 相 似 ， 都 是 将 返回 值 提供 给 调用 者 。 不 过 ， 和 
return 不 同 的 是 ，yield 不 会 退出 函数 ， 而 是 继续 执行 for 循环 。 从 功 
能 上 来 说 ， 前 面 的 例子 与 下 面 的 代码 大 体 相当 : 


next_requests = [] 
for url in... 
next_requests.append(Request(...)) 


for url in... 


next_requests.append(Request(...)) 


return next_requests 


yield 是 Python“ 魔 法 ”的 一 部 分 ， 它 可 以 使 日 常 的 高 效 编程 工作 更 加 
轻松 。 


我 们 现在 已 经 准备 好 运行 该 息 虫 了 。 不 过 如 果 让 该 假 虫 以 当前 的 
J 则 会 抓 取 网 站 完整 的 5 万 个 页 面 。 为 了 避免 运行 时 间 过 
长 ， 可 以 通过 命令 行 参数 : -s CLOSESPIDER_ITEMCOUNT=90 ， 告 


知 疏 虫 在 爬 取 指定 数量 《如 90 个 ) 的 Item 后 停止 运行 “更 多 细节 参见 
第 7 章 ) 。 现 在 ， 我 们 可 以 运行 了 。 


$ scrapy crawl manual -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (200) <...index_00000.html> (referer: None) 


DEBUG: Crawled (200) <...property_000029.htm1l> (referer: 
...index_00000. 


htm1) 


DEBUG: Scraped from <200 ...property_000029.htm1> 


{'address': [u'Clapham, London'], 


"date': [datetime.datetime(2015, 10, 4, 21, 25, 22, 801098)], 


"description': [u'situated camden facilities corner'], 


"image_urls': [u'http://web:9312/images/i10.jpg'], 


"price': [223.88], 


"project': ['properties'], 


"server': ['scrapyserver1'], 


"spider': ['manual'], 


'title': [u'Portered Mile'], 


‘url': ['http://.../property_000029.htm1']} 


DEBUG: Crawled (200) <...property_000028.html1l> (referer: 
...index_00000. 


html) 
DEBUG: Crawled (200) <...index_00001.html> (referer: ...) 
DEBUG: Crawled (200) <...property 000059.html> (referer: ...) 


INFO: Dumping Scrapy stats: ... 


'downloader/request_count': 94, ... 


'item_scraped_count': 90, 


如 采 仔 细 碍 看 前 面 的 输出 ， 就 会 发 现 我 们 同时 获得 了 水 平 抓 取 和 
垂直 抓 取 的 结果 。 第 一 个 index_00000.html 读 取 后 ， 派 生出 了 许 
多 请 求 。 当 它们 执行 时 ， 调 试 信息 通过 referer URL 指 出 是 谁 发 起 的 
请 求 。 比 如 ， 可 以 看 到 ，property_000029 ,htm1 ` 
property_000028 .htm1.… 及 index_00001.html 都 有 相同 的 


referer (index_00000.htm1) ° iiiproperty_000059. html 
及 其 他 请 求 则 是 以 jndex_00001.html 为 referer 的 ， 并 且 该 过 程 


还 在 持续 。 


从 该 示例 中 还 可 以 观察 到 ，Scrapy 在 处 理 请 求 时 使 用 的 是 后 入 先 
H (LIFO) 策略 ( 即 深度 优先 息 取 ) 。 用 户 提交 的 最 后 一 个 请 求 会 
被 首先 处 理 。 在 大 多 数 情 况 下 ， 这 种 默认 的 方式 非常 方便 。 比 如 ， 我 
们 想 要 在 移动 到 下 一 个 索引 页 之 前 处 理 每 一 个 房 源 页 时 。 否 则 ， 我 们 
将 会 填充 一 个 包含 待 息 取 房 源 页 URL 的 巨大 队列 ， 无 请 地 消耗 内 存 。 
男 外 ， 在 许多 情况 中 ， 你 可 能 需要 辅助 的 请 求 来 完成 单个 请 求 ， 我 们 
将 会 在 后 面 的 章 市 中 过 到 这 种 情况 。 你 需要 这 些 辅 助 的 请 求 能 够 尽快 
完成 ， 以 腾 出 资源 ， 并 且 让 被 抓 取 的 Item 能 够 稳定 流动 。 


我 们 可 以 通过 设置 Request( ) 的 优先 级 参数 修改 默认 顺序 ， 大 
于 0 表示 高 于 默认 的 优先 级 ， 小 于 0 表示 低 于 默认 的 优先 级 。 通 常 来 
说 ，Scrapy 的 调度 絮 会 首先 执行 高 优先 级 的 请 求 ， 不 过 不 要 花费 太 多 
时 间 来 考虑 具体 的 哪个 请 求 应 该 被 首先 执行 。 很 可 能 在 你 的 应 用 中 ， 
不 会 使 用 超过 1 个 或 2 个 请 求 优 先 级 。 此 外 还 需要 注意 的 是 ，URL 还 会 
被 执行 去 重 操作 ， 这 在 大 部 分 时 候 也 是 我 们 想 要 的 功能 。 不 过 如 果 我 
们 需要 多 次 执行 同一 个 URL 的 请 求 ， 可 以 设置 
dont_filter_Request() 参数 为 true ° 


3.4.2 ”使 用 CrawlSpider 实 现 双向 爬 取 


如 果 感 觉 上 面 的 双向 仆 取 有 些 见 长 ， 则 说 明 你 确实 发 现 了 关键 问 
题 。Scrapy 笑 试 人 简化 所 有 此 类 通用 情况 ， 以 使 其 编码 更 加 人 简单。 最 简 


单 的 实现 同样 结果 的 方式 是 使 用 CrawlSpider ， 这 是 一 个 能 够 更 容 
易 地 实现 这 种 爬 取 的 类 。 为 了 实现 它 ， 我 们 需要 使 用 genspider 命 
令 ， 并 设置 -t crawl 参数 ， 以 使 用 crawl JORMA AEE ° 


$ scrapy genspider -t crawl easy web 


Created spider 'crawl' using template 'crawl' in module: 


properties.spiders.easy 


现在 ， 文 件 properties/spiders/easy,py 包含 如 下 内 容 。 


class EasySpider(CrawlSpider): 
name = 'easy' 
allowed_domains = ['web' ] 
start_urls = ['http://www.web/' ] 


rules = ( 
Rule(LinkExtractor(allow=r'Items/'), 
callback='parse_item', follow=True), 


def parse_item(self, response): 


SR BER EA OVER SY, SAE AZ BE A 
(bh, AEE RAH, ACEI He KK ACrawlSpider ， 
而 不 再 是 Spider ° CrawlSpider 提供 了 一 个 使 用 rules 变量 实现 
的 parse( ) 方法 ， 这 与 我 们 之 前 例子 中 手工 实现 的 功能 一 致 。 


Q 
你 可 能 会 感到 疑惑 ， 为 什么 我 首先 给 出 了 手工 实现 的 版 本 ， 而 不 是 直 
接 给 出 捷径 。 这 是 因为 你 在 手工 实现 的 示例 中 ， 学 会 了 使 用 回调 的 yie1ld 


方式 的 请 求 ， 这 是 一 个 非常 有 用 和 基础 的 技术 ， 我 们 将 会 在 后 续 的 章节 中 
不 断 使 用 它 ， 因 此 理解 该 内 容 非常 值得 。 


现在 ， 我 们 要 把 start_urls 设置 成 第 一 个 索引 页 ， 并 且 用 我 们 
之 前 的 实现 替换 预定 义 的 parse_item( ) 方法 。 这 次 我 们 将 不 再 需要 
实现 任何 parse( ) 方法 。 我 们 将 预定 义 的 rules ZERK ARH 
则 ， 即 水 平 抓 取 和 垂直 抓 取 。 


rules = ( 

Rule(LinkExtractor(restrict_xpaths='//* 

[contains(@class, "next")]')), 
Rule(LinkExtractor(restrict_xpaths='//*[@itemprop="url"]'), 


callback='parse_item' ) 


) 


这 两 条 规则 使 用 的 是 和 我 们 之 前 手工 实现 的 示例 中 相同 的 XPath 表 
达 式 ， 不 过 这 里 没有 了 a 或 href 的 限制 。 顾 名 思 义 ， 
LinkExtractor 下 是 专门 用 于 抽取 链接 的 ， 因 此 在 默认 情况 下 ， 它 
们 会 去 查找 a (及 area ) href 属性 。 你 可 以 通过 设置 
LinkExtractor() 的 tags 和 attrs 参数 来 进行 自 定义 。 需 要 注意 
的 是 ， 回 调 参数 目前 是 包含 回调 方法 名 称 的 字符 串 (E 
如 "parse_item' ) ， 而 不 是 方法 引用 ， 如 
Request (self.parse_item)。 最 后 ， 除 非 设 置 了 callback 参 
数 ， 否 则 Rule 将 跟踪 已 经 抽取 的 URL， 也 就 是 说 它 将 会 扫描 目标 页 


面 以 获取 额外 的 链接 并 跟踪 它们 。 如 果 设 置 了 callback , Rule 将 
不 会 跟踪 目标 页 面 的 链接 。 如 果 你 希望 它 跟踪 链接 ， 应 当 在 
callback 方法 中 使 用 return yield 返回 它们 ， 或 者 将 Rule( ) 
的 follow 参数 设置 为 true 。 当 你 的 房 源 页 既 包 含 ITtem 又 包含 其 他 
有 用 的 导航 链接 时 ， 该 功能 可 能 会 非常 有 用 。 


运行 该 息 虫 ， 可 以 得 到 和 手工 实现 的 息 虫 相同 的 结果 ， 不 过 现在 
使 用 的 是 一 个 更 加 简单 的 源 代 码 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 


3.5 ”本 章 小 结 


本 章 可 能 是 大 家 开始 学 习 Scrapy 时 最 重要 的 一 章 。 你 刚刚 学 习 了 
开发 聆 虫 最 基本 的 方法 : UR? IM。 你 学 So eee 需求 的 
Item ， 使 用 ItemLoader 、XPath 表 达 式 和 处 理 器 加 载 Item ， 以 及 
如 何 对 Request 使 用 yield 操作 。 我 们 使 用 Request 横向 到 达 不 同 
的 索引 页 ， 纵 向 到 达 房 源 页 并 抽取 Item 。 最 后 ， 我 们 看 到 了 如 何 使 
用 CrawlSpider 和 Rule ， 以 很 少 的 代码 行 创建 非常 强大 的 爬虫 。 如 
果 你 想 要 更 深入 地 理解 这 些 概 念 ， 请 尽 可 能 多 地 阅读 本 章 ， 当 然 ， 也 
可 以 在 你 开发 自己 的 爬虫 时 使 用 本 章 作为 参考 。 


我 们 刚刚 从 网 站 中 得 到 了 一 些 信息 。 为 什么 它 这 么 重要 呢 ? 我 想 
答案 会 在 下 一 革 中 变 得 明朗 起 来 ， 在 下 一 章 中 ， 通 过 简单 的 儿 页 内 


容 ， 我 们 将 会 开发 一 个 简单 的 手机 应 用 ， 并 使 用 Scrapy 填 充 其 中 的 数 
据 。 我 想 ， 结 果 会 令 大 家 印象 深刻 。 


第 4 章 从 Scrapy 到 移动 应 用 


我 能 够 听 到 人 们 的 尖 叫 声 : “Appery.io 是 什么 ， 一 个 手机 应 用 的 专 
用 平台 ， 它 和 Scrapy 有 什么 关系 ? "那么 ， 眼 见 为 实 吧 。 你 可 能 还 会 对 
几 年 前 在 Excel 电 子 表格 上 给 某 个 人 (朋友 、 管 理 者 或 者 客户 ) 展示 数 
据 时 的 场景 印象 深刻 。 不 过 现 如 今 ， 除 非 你 的 听众 都 十 分 老练 ， 人 否则 
他 们 的 期 望 很 可 能 会 有 所 不 同 。 在 搂 下 来 的 几 页 里 ， 你 将 看 到 一 个 宵 
单 的 手机 应 用 ， 这 有 是 一 个 只 需 儿 次 单 击 就 能 够 创建 出 来 的 最 小 可 视 化 
产品 ， 其 目的 是 同 利 答 相 关 痢 传达 抽取 所 得 数据 的 力量 ， 并 回 到 生态 
系统 中 ， 以 源 网 站 网 络 流量 的 形式 展示 它 能 够 市 来 的 价值 。 


我 将 尽量 保持 简短 的 局 发 式 示 例 ， 在 这 里 它们 将 展示 如 何 充分 利 
用 你 的 数据 。 只 有 当 你 有 一 个 具体 的 应 用 用 于 消费 数据 时 ， 才 可 以 安 
全 地 略 过 本 章 。 本 章 将 会 向 你 展示 如 何以 当下 最 流行 的 方式 一 一 手机 
应 用 ， 回 公众 展示 你 的 数据 。 


4.1 ”选择 手机 应 用 框 染 


借助 于 适当 的 工具 向 手机 应 用 提供 数据 将 是 非常 容易 的 事情 。 日 
前 有 许多 优秀 的 跨 平 台 手 机 应 用 开发 框架， 如 PhoneGap、 使 用 
Appcelerator 云 服务 的 Appcelerator、jQuery Mobile 和 Sencha Touch ° 


本 章 将 使 用 Appery.io， 因 为 它 可 以 让 我 们 使 用 PhoneGap 和 jQuery 
Mobile 快 速 创建 :OS、Android、Windows Phone 以 及 HTML5 手 机 应 用 。 


我 和 Scrapy 都 与 Appery.io 无 任何 利益 关联 。 我 会 鼓励 你 独立 进行 调研 ， 
看 看 除了 本 章 中 提出 的 功能 外 ， 它 是 否 也 能 符合 你 的 需求 。 请 注意 这 
是 一 个 付费 服务 ， 你 可 以 有 14 天 的 试用 期 ， 不 过 在 我 看 来 ， 它 可 以 让 
人 无 需 动 脑 束 能 快速 开发 出 原型 ， 尤 其 是 对 于 那些 不 是 网 络 专 家 的 人 
来 说 ， 为 此 付费 是 值得 的 。 我 选择 该 服务 的 主要 原因 是 它 既 能 提供 手 
机 应 用 ， 也 能 提供 后 端 服务 ， 也 就 是 说 我 们 不 需要 再 去 配置 数据 库 、 
编写 REST API 或 为 服务 端 及 手机 应 用 使 用 其 他 一 些 语言 。 你 将 看 到 ， 
我 们 一 行 代码 都 不 用 去 编写 ! 我 们 将 会 使 用 它们 的 在 线 工 具 ; 在 任何 
时 候 ， 你 都 可 以 下 载 该 应 用 ， 并 作为 PhoneGap 项 目 ， 使 用 PhoneGap 的 
所 有 功能 。 


在 本 章 中 ， 你 需要 接 入 互联 网 连接 ， 以 便 使 用 Appery.io。 同 时 ， 
还 需要 注意 的 是 该 网 站 的 布局 可 能 在 未 来 会 有 所 变化 。 请 将 我 们 的 截 
屏 作 为 参考 ， 而 不 要 在 发 现 该 网 站 外 观 不 同时 感到 惊讶 。 


4.2 ”创建 数据 库 和 集合 


第 一 步 是 通过 单 击 Appery.io 网 站 上 的 Sign-Up 按钮 并 选取 免费 方 
案 ， 来 注册 免费 的 Appery.io 方 案 。 你 需要 提供 用 户 名 、 邮 箱 地 址 以 及 
密码 ， 然 后 就 会 创建 好 新 账户 了 。 等 得 几 秒 钟 后 ， 账 户 完 成 激活 。 然 
后 就 可 以 登录 到 Appery.io 的 仪表 盘 了 。 现 在 ， 开 始 准 备 创 建新 的 数据 
库 以 及 集合 ， 如 图 4.1 所 示 。 
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为 了 完成 该 操作 ， 需 要 按照 如 下 步骤 执行 。 
1. 单 击 Databases 选项 卡 (1) 。 


2. 然后 单 击 绿色 的 Create new database (2) 按钮 。 将 新 数据 库 
命名 为 scrapy (3) 。 


3. 现在 ， 单 击 Create 按钮 (4) 。 此 时 会 自动 打开 Scrapy 数 据 库 
的 仪表 盘 ， 在 这 里 ， 你 可 以 创建 新 的 集合 。 


在 Appery.io 的 术语 中 ， 一 个 数据 库 是 由 一 组 集合 组 成 的 。 大 致 来 
说 ， 一 个 应 用 使 用 一 个 单独 的 数据 库 〈 至 少 在 最 初时 是 这 样 ) ， 每 个 
数据 库 中 包含 多 个 集合 ， 比 如 用 户 、 房 产 、 消 恩 等 。Appery.io 默 认 已 


经 提供 了 一 个 Users 集合 ， 其 中 包括 用 户 名 和 密码 (它们 有 很 多 内 置 功 
能 ) 。 图 4.2 所 示 为 创建 集合 的 过 程 。 
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图 4.2 ”使 用 Appery.io 创 建新 数据 库 及 集合 


现在 ， 我 们 添加 一 个 用 户 ， 用 户 名 为 ro0t， 密 人 码 为 pass。 当 然 ， 你 
也 可 以 选择 更 加 安全 的 用 户 名 和 密码 。 为 实现 该 目的 ， 请 单 击 侧 边 栏 
的 Users 集合 (1) ， 然 后 单 击 +Row 添加 用 户 / 行 (2) 。 在 出 现 的 两 个 
字段 中 填 入 用 户 名 和 密码 (3) 和 (4) © 


我 们 还 需要 创建 一 个 新 的 集合 ， 用 于 存储 Scrapy 抓 取 到 的 房产 数 
据 ， 并 将 该 集合 命名 为 properties。 通 过 单 击 绿 色 的 Create new 


collection 按钮 (5) ， 将 其 命名 为 properties (6) ， 然 后 单 击 Add 
按钮 (7) ， 就 可 以 创建 新 的 集合 了 。 现 在 ， 我 们 还 必须 对 该 集合 进行 
一 些 定制 化 处 理 。 单 击 +Col 添加 数据 库 列 (8) 。 每 个 数据 库 列 都 有 其 
类 型 ， 用 于 对 值 进 行 校 验 。 除 了 价格 是 数值 类 型 外 ， 大 部 分 字段 都 古 
简单 的 字符 串 类 型 。 我 们 将 通过 单 击 +Col 添加 几 个 列 (8) ， 并 填充 列 
名 (9) ， 如 果 不 是 字符 串 类 型 的 话 ， 还 需要 选择 类 型 (10) ， 然 后 单 
击 Create column 按钮 (11) 。 重 复 该 过 程 5 次 ， 创 建 表 4.1 中 展示 的 
列 。 


在 集合 创建 的 最 后 ， 你 应 该 已 经 将 所 需 的 所 有 列 都 创建 完成 了 ， 
就 像 表 4.1 中 所 示 的 那样 。 现 在 已 经 准备 好 从 Scrapy 中 导入 一 些 数 据 
fe 


4.3 ”使 用 Scrap ARARE 


首先 ， 我 们 需要 一 个 API key。 我 们 可 以 在 Settings 选项 卡 (1) 中 
找到 它 。 复 制 该 值 (2) ， 然 后 单 击 Collections 选项 卡 (3) 回 到 房产 
集合 中 ， 过 程 如 图 4.3 所 示 。 
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图 4.3 ”使 用 Appery.io 创 建新 数据 库 及 集 


n> 


非常 好 ! 现在 需要 修改 在 第 3 章 中 创建 的 应 用 ， 将 数据 导入 到 
Appery.io 中 。 我 们 先 将 项 目 以 及 名 为 easy 的 爬虫 (easy.py) 复制 
过 来 ， 并 将 该 爬虫 重 命名 为 tomobile (tomobile.py) 。 同 时 ， 
编辑 文件 ， 将 其 名 称 设 为 Ltomobile 。 


$ ls 


properties scrapy.cfg 


$ cat properties/spiders/tomobile. py 


class ToMobileSpider(CrawlSpider) : 


name = 'tomobile' 


allowed_domains = ["scrapybook.s3.amazonaws.com" ] 


# Start on the first Index page 


start_urls = ( 


"http://scrapybook.s3.amazonaws.com/properties/' 


‘index_00000.htm1', 


你 可 能 已 经 注意 到 的 一 个 问题 是 ， 这 里 并 没有 使 用 之 前 章节 中 用 
过 的 Web 服 务 器 (http://web:9312) ， 而 是 使 用 了 该 站 点 的 一 个 
公开 可 用 的 副本 ， 这 是 我 存放 在 
http://scrapybook.s3.amazonaws.com 上 的 副本 。 之 所 以 在 本 
章 中 使 用 这 种 方式 ， 是 因为 这 样 可 以 使 图 片 和 URL 都 能 够 公开 可 用 ， 
此 时 就 可 以 非常 轻松 地 分 享 应 用 了 。 


我 们 将 使 用 Appery.io 的 管道 来 插入 数据 。Scrapy 管 道 通常 是 一 个 很 
小 的 Python 类 ， 拥 有 后 置 处 理 、 清 理 及 存储 Scrapy Item 的 功能 。 第 8 章 
将 会 更 深入 地 介绍 这 部 分 的 内 容 。 就 目前 来 说 ， 你 可 以 使 用 


easy_install 或 pip 安装 它 ， 不 过 如 果 你 使 用 的 是 我 们 的 Vagrant 
dev 机 器 ， 则 无 需 进行 任何 操作 ， 因 为 我 们 已 经 将 其 安装 好 了 。 


$ sudo easy_install -U scrapyapperyio 


$ sudo pip install --upgrade scrapyapperyio 


此 时 ， 你 需要 对 Scrapy 的 主 设置 文件 进行 一 些小 修改 ， 将 之 前 复制 
的 API key 添 加 进来 。 第 7 章 将 会 更 加 深入 地 讨论 设置 。 现 在 ， 我 们 所 需 
要 做 的 就 是 将 如 下 行 添加 到 properties/settings.py XE ° 


ITEM_PIPELINES = {'scrapyapperyio.ApperyIoPipeline': 300} 


APPERYIO_DB_ID = '<<Your API KEY here>>' 
APPERYIO_USERNAME = 'root' 


APPERYIO_PASSWORD = 'pass' 
APPERYIO_COLLECTION_NAME = 'properties' 


不 要 忘记 将 APPERYIO_DB_ID 替 换 为 你 的 API key。 此 外 ， 还 需要 
确保 设置 中 的 用 户 名 和 密码 ， 要 和 你 在 Appery.io 中 创建 数据 库 用 户 时 
使 用 的 相同 。 要 想 向 Appery.io 的 数据 库 中 填充 数据 ， 请 像 平常 那样 启 


Bscrapy crawl ° 


$ scrapy crawl tomobile -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Enabled item pipelines: ApperyIoPipeline 


INFO: Spider opened 


DEBUG: Crawled (200) <GET https://api.appery.io/rest/1/db/login? 
username= 


root&password=pass> 


DEBUG: Crawled (200) <POST 
https://api.appery.io/rest/1/db/collections/ 


properties> 


INFO: Dumping Scrapy stats: 


{'downloader/response_count': 215, 


"item_scraped_count': 105, 


INFO: Spider closed (closespider_itemcount) 


这 次 的 输出 会 有 些 不 同 。 可 以 看 到 在 最 开始 的 儿 行 中 ， 有 一 行 古 


用 于 启用 ApperyIoPipeline 这 个 Item 管 道 的 ， 不 过 最 明显 的 是 ， 你 
会 发 现 尽管 抓 取 了 100 个 Iem， 但 是 却 有 200 次 请 求 / 啊 应 。 这 是 因为 
Appery.io 的 管道 对 每 个 Item 都 执行 了 一 个 到 Appery.io 服 务 端的 额外 请 
求 ， 以 便 写 入 每 一 个 Item。 这 些 带 有 api.appery.io 这 个 URL 的 请 求 
同样 也 会 在 日 志 中 出 现 。 


当 回 到 Apperyio 时 ， 可 以 看 到 在 properties 集合 (1) 中 已 经 填充 
好 了 数据 (2) ， 如 图 4.4 所 示 。 
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图 4.4 ”使 用 数据 填充 properties 集 合 


4.4 创建 手机 应 用 


创建 一 个 新 的 手机 应 用 非常 简单 。 我 们 只 需 单 击 Apps 选项 卡 
(1) ， 然 后 单 击 绿色 的 Create new app 按钮 (2) 。 填 写 应 用 名 称 大 


properties (3) ， 然 后 单 击 Create 按钮 进行 创建 就 可 以 了 ， 该 过 程 如 
图 4.5 所 示 。 
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图 4.5 ”创建 新 手机 应 用 及 数据 库 集合 
4.4.1 创建 数据 库 访问 服务 


创建 新 应 用 时 的 选项 数量 可 能 会 有 些 多 。 使 用 Appery.io 的 应 用 编 
辑 器 ， 可 以 写 出 复杂 的 应 用 ， 不 过 我 们 将 尽 可 能 保持 事情 简单 。 我 们 
最 初 需 要 的 就 是 创建 一 个 服务 ， 能 够 让 我 们 从 应 用 中 访问 Scrapy 数 据 
库 。 为 了 达到 这 一 目的 ， 需 要 单 击 长 方形 的 绿色 按钮 CREATE NEW 

(5) ， 然 后 选择 Database Services (6) 。 这 时 会 弹出 一 个 新 的 对 话 
框 ， 让 我 们 选择 想 要 连接 的 数据 库 。 选 择 scrapy 数据 库 (7) ° XDK 
单 中 的 大 部 分 选项 都 不 会 用 到 ， 现 在 只 需要 单 击 展开 properties 区 域 

(8) ， 然 后 选择 List (9) 。 在 后 台 ， 它 会 为 我 们 编写 代码 ， 使 得 我 


们 使 用 Scrapy 谎 取 的 数据 可 以 在 网 络 上 使 用 。 最 后 ， 单 击 Import 
selected services 按钮 完成 (10) 。 


44.2 ”创建 用 户 界 面 


下 面 将 要 开始 创建 应 用 所 有 的 可 视 化 元 素 了 ， 这 将 会 使 用 编辑 器 
中 的 DESIGN 选项 卡 来 实现 ， 如 图 4.6 所 示 。 
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图 4.6 ”创建 用 户 界 面 


从 页 面 左 侧 的 树 中 ， 展 开 Pages 文件 夹 (1) ， 然 后 单 击 
startScreen (2) 。UI 编 辑 器 将 会 打开 该 页 面 ， 我 们 可 以 在 其 中 添加 一 
些 控件 。 下 面 使 用 编辑 器 编辑 标题 ， 以 便 对 其 更 加 熟悉 。 单 击 头 部 标 


ml (3) ， 人 然后 会 发 现 屏幕 右 侧 的 属性 区 域 会 变 为 显示 标题 的 属性 ， 其 
中 包含 一 个 Text 属性 ， 将 该 属性 值 修改 为 Scrapy App ， 屏 幕 中 间 的 
标题 也 会 相应 地 更 新 。 


然后 ， 需 要 添加 一 个 网 格 组 件 ， 从 左 侧 面板 (5) Pie BLGrid 控件 
即 可 实现 。 该 控件 有 两 行 ， 而 根据 我 们 的 需求 ， 只 需要 一 行 即 可 。 选 
择 刚刚 添加 的 网 格 。 当 手机 视图 顶部 的 缩 略 图 区 域 (6) ZAAT, Win 
以 知道 该 网 格 已 经 被 选 了 到 了 “。 如 有 朱 没有 被 选取 ， 和 单 击 该 网 格 以 便 选 
中 。 然 后 右 侧 的 属性 栏 会 更 新 为 网 格 的 属性 。 这 里 只 需要 将 Rows 属 性 
设置 为 1， 然 后 单 击 Apply 即 可 (7) 和 (8) 。 现 在 ， 该 网 格 就 会 被 更 
新 为 只 有 一 行 了 。 


最 后 ， 抑 搜 男 外 一 些 控件 到 网 格 中 。 首 先 要 在 网 格 左 侧 添 加 图 片 
控件 (9) ， 然 后 在 网 格 右 侧 添 加 链接 (10) ， 最 后 在 链接 下 面 添 加 标 


(11) 。 

Miia es, WEY ZS -o HR ORM AEE el AP A 
入 数据 。 
4.4.3 ”将 数据 上 映射 到 用 户 界面 


目前 为 止 ， 我 们 花费 了 大 量 时 间 在 DESIGN 选项 卡 中 ， 以 创建 应 用 
的 可 视 化 效果 。 为 了 将 可 用 的 数据 链接 到 这 些 控件 中 ， 需 要 切换 到 
DATA 选项 卡 (1) ， 如 图 4.7 所 示 。 
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图 4.7 ”将 数据 映射 到 用 户 界 面 


选择 Service (2) 作为 数据 源 类 型 。 由 于 前 面 创建 的 服务 是 唯一 可 
用 的 服务 ， 因 此 它 会 被 自动 选取 。 然 后 可 以 继续 单 击 Add 按钮 (3) ， 
此 时 服务 属性 将 会 在 其 下 方 列 出 。 只 要 按 下 了 Add 按钮 ， 束 会 看 到 像 
Before send 以 及 Success 这 样 的 事件 。 我 们 可 以 通过 单 击 Success 后 面 
的 Mapping 按钮 ， 定 制服 务 成 功 调用 后 要 做 的 事情 。 


此 时 会 打开 Mapping action editor ， 我 们 可 以 在 这 里 完成 连 线 。 该 
编辑 絮 有 两 侧 。 左 侧 是 服务 啊 应 中 可 用 的 字段 ， 而 在 右 侧 中 可 以 看 到 
前 面 步 又 中 添加 的 UI 控件 的 属性 。 两 侧 都 有 一 个 Expand all 链接 ， 单 


击 该 链接 可 以 看 到 所 有 可 用 的 数据 和 控件 。 接 下 来 ， 需 要 按照 表 4.2 中 
给 出 的 5 个 映射 ， 从 左 侧 同 石 侧 拖 扯 。 


mobilegrid_2 用 for 循 环 创建 


image_ A : 
oe 和 | 
urls 
k EIES a 2g j -十 A 多 公 
| | | 
` DI 日 | 


4.4.4 数据 库 字段 与 用 户 界面 控件 间 映 射 
表 4.2 中 项 的 数量 可 能 会 与 你 的 情况 有 些许 差别 ， 不 过 由 于 每 种 控 


件 都 只 有 一 个 ， 因 此 出 错 的 可 能 性 非常 小 。 通 过 设置 这 些 映 射 ， 我 们 
通知 Appery.io 在 后 台 编 写 所 有 代码 ， 以 便 在 数据 库 查 询 成 功 时 使 用 数 
据 库 中 的 值 加 载 控 件 。 下 面 ， 可 以 单 击 Save and return 按钮 (6) 继 


此 时 又 回 到 了 DATA 选项 卡 ， 如 图 4.7 所 示 。 由 于 还 需要 返回 到 UIl 
编辑 器 当中 ， 因 此 需要 单 击 DESIGN 选项 卡 (7) 。 在 屏幕 下 方 ， 你 会 
发 现 一 个 EVENTS 区 域 (8) ， 尽 管 该 区 域 一 直 存 在 ， 但 它 刚 刚才 被 展 
开 。 在 EVENTS 区 域 中 ， 我 们 让 Appery.io 做 一 些 事情 ， 作 为 对 UI 事件 
的 响应 。 这 是 我 们 需要 执行 的 最 后 一 个 步 怠 。 它 会 让 应 用 在 UI 加 载 完 
成 后 立即 调用 服务 取 回 数据 。 为 了 实现 该 功能 ， 我 们 需要 选择 
startScreen 作为 组 件 ， 并 将 事件 保持 为 默认 的 Load 选项 。 然 后 选择 
Invoke service 作为 action ， 你 持 Datasource 为 默认 的 restservicel 选项 

(9) 。 最 后 ， 单 击 Save (10) ， 这 就 是 我 们 为 创建 这 个 手机 应 用 所 做 
的 所 有 事情 了 。 


44.5 测试 、 分 享 及 导出 你 的 手机 应 用 


现在 ， 可 以 测试 这 个 应 用 了 。 我 们 所 需要 做 的 事情 就 是 单 击 UI 生 
成 器 顶部 的 TEST 按钮 (1) ， 如 图 4.8 所 示 。 
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图 4.8 ”运行 在 你 浏览 器 中 的 手机 应 用 


手机 应 用 将 会 在 浏览 器 中 运行 。 这 些 链接 都 是 有 效 的 (2) ， 可 以 
浏览 。 可 以 预览 不 同 的 手机 屏幕 方案 以 及 设备 方向 ， 也 可 以 单 击 View 
on Phone 按钮 ， 此 时 会 显示 一 个 二 维 码 ， 你 可 以 使 用 移动 设备 扫 摘 该 
二 维 码 ， 并 预览 该 应 用 。 你 只 需 分 享 其 生成 的 链接 ， 其 他 人 也 可 以 在 
HEAT ESD be ae FTA hy FA o 


只 需 单 击 几 下 ， 我 们 就 可 以 将 Scrapy 抓 取 的 数据 组 织 起 来 ， 并 展示 
在 手机 应 用 中 。 如 采 你 需要 更 进一步 地 定制 该 应 用 ， 可 以 参考 
Appery.io 提 供 的 教程 ， 其 网 址 为 
http://devcenter .appery.io/tutorials/。 当 一 切 准 备 就 绪 


时 ， 就 可 以 通过 EXPORT 按钮 导出 该 应 用 了 ，Appery.io 提 供 了 非常 丰 
富 的 导出 选项 ， 如 图 4.9 所 示 。 


a 
| 1 $ HTMUJS/CSS Š Eclipse project .& Binary (.apk) 
re $ HTMUJS/CSS Š xCode project $ Binary (.ipa) 
H & HTMLJS/CSS J. VS Project & Binary (.xap) 


日 4 HTMUJS/CSS 


appery. Žž, Appery.io plug-in 


图 4.9 ”你 可 以 将 应 用 导出 到 大 部 分 主流 移动 平台 


你 可 以 导出 项 目 文件 ， 在 自己 喜欢 的 IDE 中 进一步 开发 ， 也 可 以 获 
得 二 进 制 文件 ， 发 布 到 各 个 平台 的 手机 市 场 当中 。 


4.5 ”本章 小 结 


使 用 Scrapy 和 Appery.io 这 两 个 工具 ， 我 们 拥有 了 一 个 可 以 抓 取 网 站 
并 且 能 够 将 数据 插入 到 数据 库 中 的 系统 。 此 外 ， 我 们 还 得 到 了 RESTful 
API， 以 及 一 个 简单 的 可 以 用 于 Android 和 iOS 的 手机 应 用 。 对 于 高 级 特 
性 和 进一步 开发 ， 你 可 以 更 加 深入 到 这 些 平台 中 ， 将 其 中 部 分 开发 工 
作 外 包 给 领域 专家 ， 或 是 研究 替代 方案 。 现 在 ， 你 只 需要 最 少 的 编 
码 ， 就 能 够 拥有 一 个 可 以 演示 应 用 理念 的 最 小 产品 。 


你 会 注意 到 ， 在 如 此 短 的 开发 时 间 中 ， 我 们 的 应 用 看 起 来 还 不 
错 。 这 和 是 因为 它 使 用 了 真实 的 数据 ， 而 不 是 占 位 符 ， 并 且 所 有 链接 都 


是 可 用 且 有 意义 的 。 我 们 成 功 创建 了 一 个 尊重 其 生态 ( 源 网 站 ) 的 最 
小 可 用 产品 ， 并 以 流量 的 形式 将 价值 回馈 给 源 网 站 。 


现在 ， 我 们 可 以 开始 学 习 如 何 使 用 Scrapy 拒 虫 在 更 加 复杂 的 场景 
抽取 数据 了 。 


第 5 章 WERK 


第 3 草 天 注 的 是 如 何 从 页 面 中 抽取 信息 ， 并 将 其 存储 到 Items 
中 。 我 们 所 学 习 的 内 容 已 经 覆盖 了 大 部 分 常见 的 Scrapy 用 例 ， 足 够 你 
创建 并 运行 仆 虫 了 。 而 在 本 间 中 ， 我 们 将 看 到 更 多 特殊 的 例子 ， 以 便 
让 你 更 加 熟悉 Scrapy 的 两 个 最 重要 的 类 一 Request 和 Response , 
即 我 们 在 第 3 章 中 提 到 的 UR? IM 抓 取 模 型 中 的 两 个 R。 


5.1 需要 登录 的 爬虫 


通常 情况 下 ， 你 会 发 现 自己 想 要 抽取 数据 的 网 站 存在 登录 机 制 。 
大 部 分 情况 下 ， 网 站 会 要 求 你 提供 用 户 名 和 和 密码 用 于 登录 。 你 可 以 从 
http://web:9312/dynamic (从 dev 机 器 访问 ) 或 
http://localhost:9312/ dynamic (从 宿主 机 浏览 器 访问 ) 找 
到 我 们 要 使 用 的 例子 。 如 果 使 用 "user" 作 为 用 户 名 ，"pass" 作 为 密码 的 
话 ， 你 就 可 以 访问 到 包含 3 个 房产 页 面 链 接 的 网 页 。 不 过 现在 的 问题 
是 ， 要 如 何 使 用 Scrapy 执 行 相同 的 操作 ? 


让 我 们 使 用 Google Chrome 浏 览 器 的 开发 者 工具 来 尝试 理解 登录 的 
工作 过 程 ( 见 图 5.1) 。 首 先 ， 打 开 Network 选项 卡 (1) 。 然 后 ， 填 
写 用 户 名 和 密码 ， 并 单 击 Login (2) 。 如 果 用 户 名 和 密码 正确 ， 你 将 
会 看 到 包含 3 个 链接 的 页 面 。 如 果 用 户 名 和 密码 不 匹配 ， 将 会 看 到 一 个 
错误 页 。 


Ey | i 
om ROI Elements | Network | Sources Timeline Profiles Resources Audits Con 


€ C ©) localhost:9312/dynamic 'OO mY viwa * 


= Preserve log @ Disable cache No throttling 


[Filter M Hide data URLs Q) XHR JS CSS img Media Fon 
e i i 
Welcome, please login rame ia Headers Preview Response Cookies Timing 


i |_| login | Y General 


2 ' [E] gated Remote Address: 127.0.0.1:9312 ' 
user O r i 
t f Request URL: http://localhost:9312/dynamic/ login ! 
Kind ene Request Method: POST 1 
.... ' 


Status Code: ® 302 Found 5 
1 ; vResponse Headers view sout 
Login 1 Content-Length: 206 
Content-Type: text/htm arset=utf-8 
4 Date: Wed, 02 Dec 2015 :58 GMT 
RO Elements | Net | Sources Timeline Profiles 4 Location: /dynamic/gated 
H + Twi 2， 
© O m Y | View: = = G@Preservelog @Disat Ni Sarver: TWS tedNaN/23;2;0 
s > Reg ad 4 
Filter Hide data URLs A) xR: 


YForm Data view sowrce view URL encoded 
user: user 
pass: pass 

| submit: Login 
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'R O Elements | Network | Sources Timeline Profiles Resources Audits Console 


ma 
(人 me Y View: = = GPreservelog @Disable cache No throttling v 
‘ 
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i 

G| ~ Hide data URLs Q) xhR JS CSS Img Media Font Doc W 
1 


' Filter 

' Name a * Headers babe ， Response Cookies Timing 
! [ login >General 7 

1 a gated > Response lers (4) 


1 门 favicon.ico vRequest Headers view source 
i Accept: text/html, application/xhtm gml, application/xml; q=® 
1 
i 


Accept-Encoding: gzip, defla si! 

Accept-Language: en-US, +8,e1;q=0.6 i 
Cache-Control: no-c i 
Connection: keep-a; i 
Cookie: TWISTED_SESSION=26d9f8bf006edeb809b904dðf9849bdc | 


图 5.1 登录 网 站 时 的 请 求 和 响应 


当 按 下 Login 按钮 时 ， 会 在 Google Chrome) ast 2A LAN 
Network 选项 卡 中 看 到 一 个 包含 Request Method: POST 的 请 求 ， 其 日 
的 地 址 为 http://localhost:9312/dynamic/login。 


前 面 章 节 中 的 请 求 都 是 GET 类 型 的 请 求 ， 一 般 用 于 获取 不 会 改变 的 数 
据 ， 比 如 简单 的 网 页 、 图 像 等 。 而 POST 类 型 的 请 求 通常 用 于 获取 那些 依 
赖 于 传送 给 服务 器 内 容 的 数据 ， 比 如 本 例 中 的 用 户 名 和 密码 。 


当 你 单 击 该 请 求 时 (3) ， 可 以 看 到 发 送 给 服务 端的 数据 ， 包 括 
Form Data (4) ， 其 中 包含 了 我 们 输入 的 用 户 名 和 密码 。 这 些 数据 都 


是 以 文本 形式 传输 给 服务 端的 。Chrome 浏 览 器 只 是 将 其 组 织 起 来 ， 向 
我 们 更 好 地 显示 这 些 数据 。 服 务 端的 响应 是 302 Found (5) ， 使 我 们 
跳 转 到 一 个 新 的 页 面 ， /dynamic/gated 。 该 页 面 只 有 在 登录 成 功 
后 才 会 出 现 。 如 果 尝 试 直接 访问 
http://localhost:9312/dynamic/gated ， 而 不 输入 正确 的 用 
户 名 和 密码 的 话 ， 服 务 端 会 发 现 你 在 作弊 ， 并 跳 转 到 错误 页 ， 其 地 址 
是 http:// localhost:9312/dynamic/error 。 服 务 端 是 如 何 
知道 你 和 你 的 密码 的 呢 ? 如 果 你 单 击 开发 者 工具 左 侧 的 gated (6) ， 
就 会 发 现在 Request Headers 区 域 下面 (7) 设置 了 一 个 Cookie 值 

(8) 。 


HTTP Cookie 是 一 些 服务 端 发 送 给 浏览 锻 的 文本 或 数值 ， 通 闻 都 很 
短 。 相 应 地 ， 浏 览 器 会 在 随后 的 每 个 请 求 中 将 其 返回 给 服务 端 ， 用 于 标识 
你 、 用 户 和 会 话 。 这 样 你 就 可 以 执行 需要 服务 端 状态 信息 的 复杂 操作 了 ， 
比如 购物 车 里 的 商品 或 你 的 用 户 名 和 密码 。 


总 之 ， 即 使 是 一 个 单一 的 操作 ， 比 如 登录 ， 也 可 能 涉及 包括 POST 
请 求 和 HTTP 跳 转 的 多 次 服务 端 往返 。Scrapy 能 够 目 动 处 理 大 部 分 操 
作 ， 而 我 们 需要 编写 的 代码 也 很 简单 。 


我 们 从 第 3 章 中 名 为 easy 的 爬虫 开始 ， 创 建 一 个 新 的 聆 虫 ， 命 名 
为 1ogin ,保留 原 有 了 文件， 并 修改 谍 虫 中 的 name 属性 (如 下 所 
7R) : 


class LoginSpider(CrawlSpider ): 
name = 'login' 


本 章 代码 在 GitHub 的 ch95 目录 下 ， 其 中 本 示例 为 
ch05/properties ° 


我 们 需要 通过 执行 到 
http://localhost :9312/dynamic/login 的 POST 请 求 ， 发 送 
登录 的 初始 请 求 。 这 将 通过 Scrapy 的 FormRequest 类 实现 该 功能 
该 类 与 第 3 章 中 使 用 的 Request 类 相似 ， 不 过 该 类 额外 包含 一 个 
formdata 参数 ， 可 以 使 用 该 参数 传输 表单 数据 (user 和 pass ) 。 
要 想 使 用 该 类 ， 首 先 需 要 引入 如 下 模块 。 


from scrapy.http import FormRequest 


然后 ， 将 start_urls 语句 替换 为 start_redquests() 方法 。 
这 样 做 是 因为 在 本 例 中 ， 我 们 需要 从 一 些 更 加 定制 化 的 请 求 开 始 ， 而 
不 仅仅 是 几 个 URL。 更 确切 地 说 就 是 ， 我 们 从 该 函数 中 创建 并 返回 一 


个 FormRequest 。 


# Start with a login request 
def start_requests(self): 
return [ 
FormRequest ( 
"http: //web:9312/dynamic/login", 
formdata={"user": "user", "pass": "pass"} 


)] 
虽然 听 起 来 不 可 思议 ,但 是 CrawlSpider (LoginSpider 的 
基 类 ) 默认 的 parse( ) 方法 确实 处 理 了 Response ， 并 日 仍然 能 够 使 
用 第 3 章 中 的 Rule #lLinkExtractor 。 我 们 只 编写 了 非常 少 的 额外 
代码 ， 这 是 因为 Scrapy 为 我 们 透明 处 理 了 Cookie， 并 且 一 旦 我 们 登录 
成 功 ， 就 会 在 后 续 的 请 求 中 传输 这 些 Cookie， 就 和 浏览 器 执行 的 方式 
一 样 。 接 下 来 可 以 像 平 常 一 样 ， 使 用 scrapy crwal 运行 。 


$ scrapy crawl login 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Redirecting (302) to <GET .../gated> from <POST .../login > 


DEBUG: Crawled (200) <GET .../data.php> 


DEBUG: Crawled (200) <GET .../property_000001.html1> (referer: 
../data. 


php) 


DEBUG: Scraped from <200 .../property_000001.htm1> 


{'address': [u'Plaistow, London'], 


"date': [datetime.datetime(2015, 11, 25, 12, 7, 27, 120119)], 


"description': [u'features'], 


'image_urls': [u'http://web:9312/images/i02.jpg'], 


INFO: Closing spider (finished) 


INFO: Dumping Scrapy stats: 


"downloader/request_method_count/GET': 4, 


"downloader/request_method_count/POST': 1, 


'item scraped count': 3, 


我 们 可 以 在 日 志 中 看 到 从 dynamic/login 到 dynamic/gated 
的 跳 转 ， 然 后 就 会 像 平时 那样 抓 取 Item 了 。 在 统计 中 ， 可 以 看 到 1 个 
POST 请 求 和 4 个 GET 请 求 (一 个 是 前 往 dynamic/gated RII, 5 
外 3 个 是 房产 页 面 ) 。 


本 例 中 ， 我 们 没有 保护 房产 页 面 本 喘 ， 
接 。 无 论 哪 种 情况 ， 前 面 的 代码 都 是 适用 的 。 
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保护 了 到 这 些 


= 


1 面 的 链 


如 果 使 用 了 错误 的 用 户 名 和 密码， 将 会 跳 转 到 一 个 没有 任何 项 目 
的 页 面 ， 并 且 此 时 扑 取 过 程 会 被 终止 ， 如 下 面 的 执行 情况 所 示 。 


$ scrapy crawl login 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Redirecting (302) to <GET .../dynamic/error > from <POST 
ET 


dynamic/login> 


DEBUG: Crawled (200) <GET .../dynamic/error> 


INFO: Spider closed (closespider_itemcount ) 


这 十 一 个 简单 的 登录 示例 ， 用 于 演示 基本 的 登录 机 制 。 大 多 数 网 
站 都 会 拥有 一 些 更 加 复 洒 的 机 制 ， 不 过 Scrapy 也 都 能 够 轻松 处 理 。 比 
如 ， 一 些 网 站 要 求 你 在 执行 POST 请 求 时 ， 将 表单 页 中 的 某 些 表单 变量 
传输 到 登 永 页， 以 便 确 认 Cookie 是 局 用 的 ， 同 样 也 会 让 你 在 和 莹 试 骏 力 
破解 成 千 上 万 次 用 户 名 /密码 的 组 合 时 更 加 困难 。 图 5.2 所 示 即 为 此 种 情 
况 的 一 个 示例 。 


<. ee | 


所 Œ |ì localhost:9312/dynamic/nonce 


Welcome, please login 


Login 


R O | Elements | Network Sources Timeline Profiles Resource 


<html 
> <head>..</head> 
v <body> 
<hi>Welcome, please login</h1 
v <form method="post" action="/dynamic/nonce-login"> 
> <p>..</p> 
> <p>..</p> 
> <p class=' ‘submit''>..</p> 
input type hidden name="nonce’ value="'0.0179961813547 
</form> 
</body> 
</html> 


图 5.2 ”使 用 一 次 性 随机 数 的 一 个 更 加 高 级 的 登录 示例 的 请 求 和 响应 情况 


比如 ， 当 访问 http://localhost:9312/dynamic/nonce 
时 ， 你 会 看 到 一 个 看 起 来 一 样 的 页 面 ， 但 是 当 使 用 Chrome 浏 览 好 
发 者 工具 查看 时 ， 会 发 现 页 面 的 表单 中 有 一 个 叫 作 nonce 的 隐藏 
段 。 当 提交 该 表单 时 (提交 到 http://localhost:9312/ 
dynamic/nonce-login) ， 除 非 你 既 传 输 了 正确 的 用 户 名 /密码 ， 
又 提交 了 服务 端 在 你 访问 该 登录 页 时 给 你 的 nonce 值 ， 否 则 登录 不 会 
成 功 。 你 无 法 猜测 该 值 ， 因 为 它 通常 是 随机 日 一 次 性 的 。 这 或 表示 要 
想 成 功 登 录 ， 现 在 就 需要 请 求 两 次 了 。 你 必须 先 访问 表单 页 ， 然 后 再 
访问 登录 页 传输 数据 。 当 然 ，Scrapy 同 样 拥有 内 置 函数 可 以 帮助 我 们 
实现 这 一 目的 。 


一 


我 们 创建 了 一 个 和 之 前 相似 的 NonceLoginSpider ER - iH 
在 ,在 start_requests() 中 ， 将 返回 一 个 简单 的 Request (不 要 
蕊 记 引 入 该 模块 到 表单 页 面 中 ， 并 通过 设置 其 callback 属性 为 处 
理 方 法 parse_welcome( ) 手动 处 理 啊 应 。 在 parse_welcome() 
中 ， 使 用 了 FormRequest 对 象 的 辅助 方法 from_response()， 以 
创建 从 原始 表单 中 预 填充 所 有 字段 和 值 的 FormRequest 对 象 。 
FormRequest .from_response() 粗略 模拟 了 一 次 在 页 面 的 第 一 个 
表单 上 的 提交 单 击 ， 此 时 所 有 字段 留 空 。 


花费 一 些 时 间 让 自己 熟悉 from_response( ) 的 文档 是 值得 的 。 它 有 
很 多 非常 有 用 的 功能 ， 如 formname 和 formnumber 可 以 帮助 你 在 拥有 多 : 
个 表单 的 页 面 上 选择 其 中 某 个 表单 。 : 


该 方法 对 于 我 们 来 说 非常 有 用 ， 因 为 它 能 够 毫 不 费力 地 原样 包含 
表单 中 的 所 有 隐藏 字段 。 我 们 所 需要 做 的 就 是 使 用 formdata 参数 十 
充 user 和 pass 字段 以 及 返回 FormRequest 。 下 面 是 其 相关 代码 。 


# Start on the welcome page 
def start_requests(self): 
return [ 
Request ( 
"http: //web:9312/dynamic/nonce", 
callback=self.parse_welcome) 


] 


# Post welcome page's first form with the given user/pass 
def parse_welcome(self, response): 
return FormRequest.from_response( 
response, 


formdata={"user": "user", "pass": "pass"} 
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$ scrapy crawl noncelogin 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (200) <GET .../dynamic/nonce> 


DEBUG: Redirecting (302) to <GET .../dynamic/gated > from <POST 
ae 


dynamic/login-nonce> 


DEBUG: Crawled (200) <GET .../dynamic/gated> 


INFO: Dumping Scrapy stats: 


"downloader/request_method_count/GET': 5, 


"downloader/request_method_count/POST': 1, 


'item scraped count': 3, 


re 


可 以 看 到 ， 第 一 个 GET 请 求 前 往 /dynamic/nonce 页 面 ， 然 后 
是 POST 请 求 ， 跳 转 到 /dynamic/nonce-1login 页 面 ， 之 后 像 前 面 
的 例子 一 样 跳 转 到 /dynamic/gated 页 面 。 关 于 登录 的 讨论 就 到 这 
里 。 该 示例 使 用 两 个 步骤 完成 登录 。 只 要 你 有 足够 的 耐心 ， 就 可 以 形 
成 任意 长 链 ， 来 执行 几乎 所 有 的 登录 操作 。 


5.2 ”使 用 JSON API 和 AJAX 页 面 的 爬虫 


有 时 ， 你 会 发 现 目 己 在 页 面 寻找 的 数据 无 法 从 HTML 页 面 中 找 
到 。 比 如 ， 当 访问 http://localhost:9312/static/ 时 (HA 
5.3) ， 在 页 面 任意 位 置 右键 单 击 inspect element (1,2) ， 可 以 看 到 
其 中 包含 所 有 常见 HTML 元 素 的 DOM 树 。 但 是 ， 当 你 使 用 scrapy 
shell 请 求 ， 或 是 在 Chrome 浏 览 右 中 右键 单 击 View Page Source (3, 
4) 时 ， 则 会 发 现 该 页 面 的 HTML 代 码 中 并 不 包含 天 于 房产 的 任何 信 
妃 。 那 么 ， 这 些 数 据 是 从 哪里 来 的 呢 ? 


ER 
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图 5.3 ”动态 加 载 JSON 对 象 时 的 页 面 请 求 与 响应 


与 平常 一 样 ， 遇 到 这 类 例子 时 ， 下 一 步 操 作 应 当 是 打开 Chrome 浏 
哆 器 开发 者 工具 的 Network 选项 卡 ， 来 看 看 发 生 了 什么 。 在 左 侧 的 列 
表 中 ， 可 以 看 到 加 载 本 页 面 时 Chrome 执 行 的 请 求 。 在 这 个 简单 的 页 面 
中 ， 只 有 3 个 请 求 : static/ 是 刚才 已 经 检查 过 的 请 求 ，jquery.min.js 用 
于 获取 一 个 流行 的 Javascript 框 架 的 代码 ;而 api.json 看 起 来 会 让 我 们 
产生 兴趣 。 当 单 击 该 请 求 (6) ， 并 单 击 右 侧 的 Preview 选项 卡 (7) 
上 时， 就 会 发 现 这 里 面包 含 了 我 们 正在 寻找 的 数据 。 实 际 上 ， 
http://localhost :9312/properties/api.json 包含 了 房产 
的 ID 和 和 名称 (8) ， 如 下 所 示 。 


id": 
Ee "better set unique family well" 


ty 
are 


"id": 29, 
"title": "better portered mile" 


}] 


这 是 一 个 非常 简单 的 JSON API 的 示例 。 更 复杂 的 API 可 能 需要 你 
登录 ， 使 用 POST 请 求 ， 或 返回 更 有 趣 的 数据 结构 。 无 论 在 哪 种 情况 
下 ，JSON 都 是 最 简单 的 解析 格式 之 一 ， 因 为 你 不 需要 编写 任何 XPath 
表达 式 束 可 以 从 中 抽取 出 数据 。 


Python 提供 了 一 个 非常 好 的 JSON 解 析 库 。 当 我 们 执行 Import 
json 时 ， 就 可 以 使 用 json, loads(response,body) 解析 JSON， 
将 其 转换 为 由 Python 原 语 、 列 表 和 字典 组 成 的 等 效 Python 对 象 。 


我 们 将 第 3 章 的 manual .py 拷贝 过 来 ， 用 于 实现 该 功能 。 在 本 例 
中 ， 这 是 最 佳 的 起 始 选项 ， 因 为 我 们 需要 通过 在 JSON 对 象 中 找到 的 
ID， 手 动 创建 房产 URL 以 及 Request 对 象 。 我 们 将 该 文件 重 命名 为 
api ,py ， 并 将 怜 虫 类 重 命名 为 ApiSpider ，name 属性 修改 为 api 
°- 新 的 start_ur1s 将 会 是 JSON API 的 URL， 如 下 所 示 。 


start_urls = 
"http://web:9312/properties/api.json', 


) 


如 果 你 想 执行 POST 请 求 ， 或 是 更 复杂 的 操作 ， 可 以 使 用 前 一 节 中 
介绍 的 start_requests() 方法 。 此 时 ，Scrapy 将 会 打开 该 URL， 
并 调用 包含 以 Response 为 参数 的 parse( ) 方法 。 可 以 通过 import 
json ， 使 用 如 下 代码 解析 JSON 对 象 。 


def parse(self, response): 
base_url = "http://web:9312/properties/" 
js = json.loads(response.body) 
for item in js: 


id = item["id"] 
url = base_url + "property_%06d.html" % id 
yield Request(url, callback=self.parse_item) 


前 面 的 代码 使 用 了 json.loads(response.body) , 1% 
Response 这 个 JSON 对 象 解析 为 Python 列 表 ， 然 后 迭代 该 列表 。 对 于 
列表 中 的 每 一 项 ， 我 们 将 URL 的 3 个 部 分 (base_url、 
property_%06d 以 及 ,html ) 组 合 到 一 起 。base_ur1l 是 在 前 面 定 
义 的 URL 前 级 。%06d 是 Python 语法 中 非常 有 用 的 一 部 分 ， 它 可 以 让 我 
们 结合 Python 变量 创建 新 的 字符 串 。 在 本 例 中 ，%096d 将 会 被 变量 id 
HERR (本 行 结尾 处 % 后 面 的 变量 ) 。id 将 会 被 视 为 数字 (%d 表 
示 视 为 数字 ) ， 并 且 如 果 不 满 6 位 ， 则 会 在 前 面 加 上 0， 扩 展 成 6 位 字 
IF e behn, id 值 为 5，%06d 将 会 被 蔡 换 为 000005， 而 如 琳 id 为 
34322, %06d 则 会 被 替换 为 034322。 最 终结 果 正 是 我 们 房产 页 面 的 有 
效 URL。 我 们 使 用 该 URL 形 成 一 个 新 的 Request 对 象 ， 并 像 第 3 章 一 
H(A yield 。 然 后 可 以 像 平时 那样 使 用 scrapy crawl 运行 该 示 
例 。 


$ scrapy crawl api 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (200) <GET ...properties/api.json> 


DEBUG: Crawled (200) <GET .../property_000029.htm1> 


INFO: Closing spider (finished) 


INFO: Dumping Scrapy stats: 


"downloader/request_count': 31, 


'item scraped count': 30, 


你 可 能 会 注意 到 结尾 处 的 状态 是 31 个 请 求 一 一 每 个 Item 一 个 请 
求 ， 以 及 最 初 的 api .json 的 请 求 。 


5.2.1 ”在 响应 间 传 参 


很 多 情况 下 ， 在 JSON API 中 会 有 感 兴趣 的 信息 ， 你 可 能 想 要 将 它 
们 存储 到 Item 中 。 在 我 们 的 示例 中 ， 为 了 演示 这 种 情况 ，JSON API 
会 在 给 定 房 产 信息 的 标题 前 面 加 上 "better"。 上 比如， 房产 标题 是 "Covent 
Garden"，API 就 会 将 标题 写 为 "Better Covent Garden"。 假 设 我 们 想 要 
将 这 些 "better" 开 头 的 标题 存储 到 Items 中 ， 要 如 何 将 信息 从 
parse() 方法 传递 到 parse_item( ) 方法 呢 ? 


不 要 感到 惊讶 ， 通 过 在 parse( ) 生成 的 Request 中 设置 一 些 东 
西 ， 束 能 实现 该 功能 。 之 后 ， 可 以 从 parse_item( ) 接收 到 的 
Response 中 取得 这 些 信息 。Request 有 一 个 名 为 meta 的 字典 ， 能 
BEA Response 。 比 如 在 我 们 的 例子 中 ， 可 以 在 该 字典 中 设置 
标题 值 ， 以 存储 来 自 JSON 对 象 的 标题 。 


title = item["title"] 
yield Request(url, meta={"title": title}, callback=self.parse_item) 


fEparse_item() 内 部 ， 可 以 使 用 该 值 蔡 代 之 前 使 用 过 的 XPath 


l.add_value('title', response.meta['title'], 


MapCompose(unicode.strip, unicode.title) ) 


你 会 发 现 我 们 不 再 调用 add_xpath( ) ， 而 是 转 为 调用 
add_value() ， 这 是 因为 我 们 在 该 字段 中 将 不 会 再 使 用 到 任何 XPath 
表达 式 。 现 在 ， 可 以 使 用 scrapy crawl 运行 这 个 新 的 仆 虫 ， 并 且 可 
以 在 PropertyItems 中 看 到 来 自 api .json 的 标题 。 


5.3 ”30 倍速 的 房产 爬虫 


有 这 样 一 种 趋势 ， 当 你 开始 使 用 一 个 框架 时 ， 做 任何 事情 都 可 能 
会 使 用 最 复 洒 的 方式 。 你 在 使 用 Scrapy 时 也 会 发 现 自 己 在 做 这 样 的 事 
情 。 在 状 狂 于 XPath 等 技术 之 前 ， 值 得 人 下 来 想 一 想 ， 我 选择 的 方式 是 
从 网 站 中 抽取 数据 最 简单 的 方式 吗 ? 


如 果 你 能 从 索引 页 中 抽取 出 基本 相同 的 信息 ， 就 可 以 避免 抓 取 每 
个 房 源 页 ， 从 而 得 到 数量 级 的 提升 。 


请 记 住 ， 很 多 网 站 在 其 索引 页 中 提供 了 不 同 的 项 目 数量 选择 。 比 如 ， 
一 个 网 站 可 能 允许 你 通过 调整 参数 指定 每 个 索引 页 显示 的 房 源 数 是 10、50 
还 是 100， 如 &show=59。 显 然 ， 如 果 是 这 样 的 情况 ， 就 可 以 将 该 参数 设 
置 为 允许 的 最 大 值 。 


比如 ， 在 房产 示例 中 ， 我 们 所 需要 的 所 有 信息 都 存在 于 索引 页 
中 ， 包 括 标题 、 描 述 、 价 格 和 图 片 。 这 就 意味 着 只 抓 取 一 个 索引 页 ， 
就 能 抽取 其 中 的 30 个 条 目 以 及 前 往 下 一 页 的 链接 。 通 过 扑 取 100 个 索引 
页 ， 我们 只 需要 100 个 请 求 ， 而 不 是 3000 个 请 求 ， 就 能 够 得 到 3000 个 条 
E e RET! 


在 真实 的 Gumtree 网 站 中 ， 索 引 页 的 描述 信息 要 比 列表 页 中 完整 的 
描述 信息 稍 短 一 些 。 不 过 此 时 这 种 抓 取 方式 可 能 也 古 可 行 的 ， 甚 至 也 
令 人 满意 。 


在 许多 情况 下 ， 我 们 将 不 得 不 权衡 数据 质量 与 请 求 数量 的 关系 。 很 多 
源 都 会 限制 大 量 的 请 求 〈 后 续 章 节 会 遇 到 更 多 此 类 问题 ) ， 因 此 在 索引 中 
获取 也 可 能 帮助 我 们 解决 其 他 难题 。 


在 我 们 的 例子 中 ， 当 查看 任何 一 个 索引 页 的 HTML 代 码 时 ， 束 会 
发 现 索 引 页 中 的 每 个 房 源 都 有 其 目 己 的 节点 ， 并 使 用 
itemtype="http://schema.org/Product" XER ° EZT A, 
中 ， 我 们 拥有 与 详情 页 完全 相同 的 方式 为 每 个 属性 注解 的 所 有 信息 ， 
如 图 5.4 所 示 。 


| | | = EATOPY 
= z om 2 Just now 
i 一 z EE m = 粳 span. save 
O ee ee 
6 加 Earls Court, London * 


work Sources Timeline Profiles Resources Audits Console 
</li> 
了 <Li> 
> <article class="listing-maxi" itemscope itemtype=" itemtype="http://schema.org/Product" //schema. org/Product 
</li> 
了 <Li> 
class="Listing-maxi" itemscopegitemtype="http://schema.org/Product" d="ad-featured-104: 
;before 
v<a class="Listing-Link" href=" '/p/ wit? > a a li tee Fa oe cee he. CC 
mes" itemprop="url"> 


d="ad-featured-105 


: :before 
><div class="Listing-side">..</div> 


<h2 class="Listing-title" itemprop="name">..</h2> 

> <p class="Listing-description truncate-paragraph 

hide-fully—to-m" itemprop="description">..</p> 

> <ul class="lListing-attributes inline-list hide-fully-to-m">..</ul> 

><div class="Listing-location" itemscope itemtype="http://schema.org/Place">..</div> 
<strong class="listing-price txt-emphasis" itemprop="price">£270pw</strong> 


图 5.4 从 单一 索引 页 抽取 多 个 房产 信息 


我 们 在 Scrapy shell 中 加 载 第 一 个 索引 页 ， 并 使 用 XPath 表 达 式 进行 
测试 。 


$ scrapy shell http://web:9312/properties/index_00000.htm1 


在 Scrapy shell, iste RATA E A Producti SWAN: 


>>> p=response.xpath('//*[@itemtype="http://schema.org/Product"]') 


>>> len(p) 


30 


>>> p 


[<Selector xpath='//*[@itemtype="http://schema.org/Product"]' 
data=u'<1li 


class="listing-maxi" itemscopeitemt'...] 


可 以 看 到 我 们 得 到 了 一 个 包含 30 个 Selector 对 象 的 列表 ， 每 个 

对 象 指向 一 个 房 源 。 在 某 种 意义 上 ，Selector 对 象 与 Response 对 
象 有 些 相 似 ， 我 们 可 以 在 其 中 使 用 XPath 表 达 式 ， 并 且 只 从 它们 指向 的 
地 方 获取 信息 。 唯 一 需要 说 明 的 是 ， 这 些 表 达 式 应 该 是 相对 XPath 表达 
式 。 相 对 XPath 表达 式 与 我 们 之 前 看 到 的 基本 一 样 ， 不 过 在 前 面 增加 了 
一 个 "点 号 。 举 例 说 明 ， 让 我 们 看 一 下 使 用 .//* 
[@itemprop="name"][1]/text() 这 个 相对 XPath 表达 式 ， 从 第 4 
个 房 源 抽取 标题 时 是 如 何 工作 的 。 


>>> selector = p[3] 


>>> selector 


<Selector xpath='//*[@itemtype="http://schema.org/Product"]' ... 
'> 


>>> selector.xpath('.//* [@itemprop="name"][1]/text()').extract() 


[u'l fun broadband clean people brompton european’ ' ] 


可 以 在 Selector 对 和 象 的 列表 中 使 用 for 循环 ， 抽 取 索 引 页 中 全 
部 30 个 条 目的 信息 。 


为 了 实现 该 目的 ， 我 们 再 一 次 从 第 3 章 的 manual, py 2+, +I 
虫 重 命名 为 "fast"， 并 重 命 名 文件 为 fast .py 。 my 复 用 大 部 分 代 
码 ， 只 在 parse() 和 parse_items( ) 方法 中 进行 少量 修改 。 最 新 方 
法 的 代码 如 下 。 


def parse(self, response): 
# Get the next index URLs and yield Requests 
next_sel = response.xpath('//* 
[contains(@class, "next")]//@href' ) 
for url in next_sel.extract(): 
yield Request(urlparse.urljoin(response.url, url)) 


# Iterate through products and create PropertiesItems 
selectors = response. xpath( 

'//* [@itemtype="http://schema.org/Product"]' ) 
for selector in selectors: 

yield self.parse_item(selector, response) 


在 代码 的 第 一 部 分 中 ， 对 前 往 下 一 个 索引 页 的 Request 的 yield 
操作 的 代码 没有 变化 。 唯 一 改变 的 内 容 在 第 二 部 分 ， 不 再 使 用 yield 
为 每 个 详情 页 创建 请 求 ， 而 是 从 代 选择 器 并 调用 parse_item()。 其 
中 ，parse_item( ) 的 代码 也 和 原始 代码 非常 相似 ， 如 下 所 示 。 


def parse_item(self, selector, response): 
Create the loader using the selector 
= ItemLoader(item=PropertiesItem(), selector=selector ) 


Load fields using XPath expressions 
.add_xpath('title', './/*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title) ) 
.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), float), 
re='[, .0-9]+') 
.add_xpath('description', 
',.//* [@itemprop="description"][1]/text()', 
MapCompose(unicode.strip), Join()) 
.add_xpath('address', 
'.//*[@itemtype="http://schema.org/Place"]' 
'[1]/*/text()', 
MapCompose(unicode.strip) ) 
make_url = lambda i: urlparse.urljoin(response.url, i) 
l.add_xpath('image_urls', './/*[@itemprop="image"][1]/@src', 
MapCompose(make_ur1) ) 


Housekeeping fields 

.add_xpath('url', './/*[@itemprop="url"][1]/@href', 
MapCompose(make_ur1) ) 

.add_value('project', self.settings.get('BOT_NAME' ) ) 

.add_value('spider', self.name) 

.add_value('server', socket.gethostname() ) 

.add_value('date', datetime.datetime.now() ) 


return 1.load_item() 


我 们 所 做 的 细微 变更 如 下 所 示 。 


。ItemLoader 现在 使 用 selector 作为 源 ， 而 不 再 是 Response 
° 这 是 ItemLoader API 一 个 非常 便捷 的 功能 ， 能 够 让 我 们 从 当 
前 选取 的 部 分 (而 不 是 整个 页 面 ) 抽取 数据 。 

。 XPath 表 达 式 通过 使 用 前 缀 点 号 (.) 转 为 相对 XPath © 


比较 巧合 的 是 ， 在 我 们 的 例子 中 ， 索 引 页 和 详情 页 中 的 XPath 表达 式 
是 一 样 的 。 实 际 情况 并 不 总 是 这 样 ， 你 可 能 需要 重新 开发 XPath 表达 式 ， 
以 匹配 索引 页 的 结构 。 


。 我 们 必须 自己 编辑 Item 的 URL。 之 前 ，response ,url 已 经 给 
出 了 房 源 页 的 URL。 而 现在 ， 它 给 出 的 是 索引 页 的 URL， 因 为 该 
页 面 才 是 我 们 要 礁 到 的 。 我 们 需要 使 用 熟悉 的 ,/A* 
[@itemprop="url"][1]/@href 这 个 XPath 表达 式 抽取 出 房 源 
的 URL， 然 后 使 用 MapCompose 处 理 器 将 其 转换 为 绝对 URL 。 


小 的 改变 能 够 节省 巨大 的 工作 量 。 现 在 ， 我 们 可 以 使 用 如 下 代码 
ZITATE ° 


$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=3 


INFO: Dumping Scrapy stats: 


'downloader/request_count': 3, ... 


'item_scraped_count': 90,... 


和 预期 一 样 ， 只 用 了 3 个 请 求 ， 束 抓 取 了 90 个 条 目 。 如 采 我 们 没有 
在 索引 页 中 获取 到 的 话 ， 则 需要 93 个 请 求 。 这 种 方式 太 明 智 了 ! 


如 果 你 想 使 用 scrapy parse 进行 调试 ， 那 么 现在 必须 设置 
Spider 参数 ， 如 下 所 示 。 


$ scrapy parse --spider=fast 
http://web:9312/properties/index 00000.html 


>>> STATUS DEPTH LEVEL 1 <<< 

# Scraped Items 

[{'address': [u'Angel, London'], 
. 30 items... 


# Requests 


[<GET http: //web:9312/properties/index_00001.htm1>] 


正如 期 望 的 那样 ，parse() 返回 了 30 个 Item 以 及 一 个 前 往 下 
一 索引 页 的 Request 。 请 使 用 scrapy parse 随意 试验 ， 比 如 传输 - 
-depth=2 ° 


5.4 ”基于 Excel 文 件 候 取 的 爬虫 


大 多 数 情况 下 ， 每 个 源 网 站 只 会 有 一 个 爬虫 ; 不 过 在 茶 些 情况 
下 ， 你 想 要 抓 取 的 数据 来 目 多 个 网 站 ， 此 时 唯一 变化 的 东西 就 是 所 使 
用 的 XPath 表达 式 。 对 于 此 类 情况 ， 如 果 为 每 个 网 站 都 使 用 一 个 爬虫 则 
显得 有 些小 题 大 做 。 那 么 可 以 只 使 用 一 个 候 虫 来 和 假 取 所 有 这 些 网 站 


吗 ? 答案 是 肯定 的 。 


让 我 们 为 该 实验 创建 一 个 新 的 爬虫 ， 因 为 这 次 仆 取 的 条 目 会 和 之 
前 区 别 很 大 (实际 上 我 们 还 没有 在 该 项 目 中 定义 任何 东西 ! ) 。 假 设 
此 时 在 ch95 下 的 properties 目录 中 。 让 我 们 同上 一 层 ， 如 下 面 的 
代码 所 示 进 行 操作 。 


$ pwd 


/root/book/ch05/properties 


$cd.. 


$ pwd 


/root/book/ch05 


我 们 创建 了 一 个 名 为 generic 的 新 项 目 ， 以 及 一 个 名 为 
fromcsv AYE ° 


$ scrapy startproject generic 


$ cd generic 


$ scrapy genspider fromcsv example.com 


现在 ， 创 建 一 个 ,csv 文件 ， 其 中 包含 想 要 抽取 的 信息 。 可 以 使 
用 一 个 电子 表格 程序 ， 比 如 Microsoft Excel， 来 创建 这 个 ,csv 文件 。 
填 入 如 图 5.5 所 示 的 几 个 URL 和 XPath 表达 式 ， 然 后 将 其 命名 为 
todo.csv ， 保 存 到 爬 虫 目 孙 当中 (scrapy.cfg 所 在 目录 ) 。 要 想 
保存 为 .csv 文件 ， 需 要 在 保存 对 话 框 中 选择 CSV 文 件 (Windows) 作 
为 文件 格式 。 


| A | B | C 
url name price 
http:;//web:9312/static/a.html //*[@id="itemTitle"]/text{) //*([@id="prelsum")/text() 
http://web:9312/static/b.ptml //h1/text{) //span/strong/text(} 
_| btto://web:9312/static/c.html //*[@id="product-desc"]/span/text() 


TJ 
| Ea | Uu | A | 


图 5.5 包含 URL 和 XPath 表 达 式 的 todo.csv 


很 好 ! 如 果 一 切 都 已 束 绪 ， 你 束 可 以 在 终端 上 看 到 该 文件 。 


$ cat todo.csv 


url,name, price 


a. html, "//*[@id=""itemTitle""]/text()","//* 
[@id=" "prcIsum" "]/text ( ) " 


b. html, //h1/text(),//span/strong/text() 


c. html, "//* [@id=""product -desc""]/span/text()" 


ee 


Python 有 一 个 用 于 处 理 ,csv 文件 的 内 置 库 。 只 需 通 过 import 
csv 导入 模块 ， 然 后 就 可 以 使 用 如 下 这 些 直 截 了 当 的 代码 ， 以 字典 的 


形式 读 取 文件 中 的 所 有 行 了 。 在 当前 目 了 永 下 打开 Python 提示 符 ， 了 驶 可 
以 尝试 如 下 代码 。 


$ pwd 


/root/book/ch05/generic2 


$ python 


>>> import csv 


>>> with open("todo.csv", "ru") as f: 


reader = csv.DictReader (f) 


for line in reader: 


print line 


文件 中 的 第 一 行 会 被 目 动作 为 标题 行 处 理 ， 并 且 会 根据 它们 得 出 
典 中 键 的 名 称 。 在 接 下 来 的 每 一 行 中 ， 会 得 到 一 个 包含 行内 数据 的 


字典 。 我 们 使 用 for 循 环 迭 代 每 一 行 。 当 运行 前 面 的 代码 时 ， 可 以 得 到 
如 下 输出 。 


{'url': ' http://a.html', 'price': '//*[@id="prcIsum"]/text()', 
'name': '//*[@id="itemTitle"]/text()'} 

{'url': ' http://b.html', 'price': '//span/strong/text()', 'name': 
'// 


hi/text()'} 
{'url': ' http://c.html', 'price': '', 'name': '//*[@id="product - 
desc"]/span/text()'} 


非常 好 。 现 在 ， 可 以 编辑 generic/spiders/fromcsv,.py 这 
个 爬虫 了 。 我 们 将 会 用 到 , csv 文件 中 的 URL， 并 且 不 希望 有 任何 域 
名 限制 。 因 此 ， 首 先 要 做 的 事情 就 是 移 除 start_urls 以 及 
allowed_domains ， 然 后 读 取 .csv 文件 。 


由 于 我 们 事先 并 不 知道 想 要 起 始 的 URL， 而 是 从 文件 中 读 取 得 到 
的 ， 因 此 需要 实现 一 个 start_requests() 。 对 于 每 一 行 ， 创 
建 Request ， 然 后 对 其 进行 yield 操作 。 此 外 ， 还 会 在 
reqeust .meta 中 存储 来 自 csv Say eames 以 
便 在 parse( ) 函数 中 使 用 它们 。 然 后 ， 使 用 Item 和 ItemLoader 填 
充 Item 的 字段 。 下 面 是 完整 的 代码 。 


import csv 

import scrapy 

from scrapy.http import Request 

from scrapy.loader import ItemLoader 
from scrapy.item import Item, Field 


class FromcsvSpider(scrapy.Spider): 
name = "fromcsv" 


def start_requests(self): 
with open("todo.csv", "rU") as f: 
reader = csv.DictReader(f) 


for line in reader: 
request = Request(line.pop('url')) 
request.meta['fields'] = line 
yield request 


def parse(self, response): 
item = Item() 
1 = ItemLoader(item=item, response=response) 
for name, xpath in response.meta['fields'].iteritems(): 
if xpath: 
item.fields[name] = Field() 
l.add_xpath(name, xpath) 
return 1.load_item() 


fe PORTTERMERL, FHA out. csv 文件 中 。 


$ scrapy crawl fromcsv -o out.csv 


INFO: Scrapy 0.0.3 started (bot: generic) 


DEBUG: Scraped from <200 a.html> 


{'name': [u'My item'], 'price': [u'128']} 


DEBUG: Scraped from <200 b.html> 


{'name': [u'Getting interesting'], 'price': [u'300']} 


DEBUG: Scraped from <200 c.html> 


{'name': [u'Buy this now' ]} 


INFO: Spider closed (finished) 


$ cat out.csv 


price, name 


128,My item 


300,Getting interesting 


,Buy this now 


EAERI EIA Z FF, AP AY Tal Ee | 


在 代码 中 ， 你 可 能 已 经 注意 到 了 几 个 事情 。 由 于 我 们 没有 为 该 项 
目 定 义 系统 范围 的 Item ， 因 此 必须 像 如 下 代码 这 样 手动 为 


ItemLoader 提供 。 


item = Item() 
1 = ItemLoader(item=item, response=response) 


此 外 ， 我 们 还 使 用 了 Item 的 成 员 变 量 fijelds IAFFE ° X 
了 能 够 动态 添加 新 字段 ， 并 通过 ItemLoader 对 其 进行 填充 ， 需 要 实 
现 的 代码 如 下 。 


item.fields[name] = Field() 
l.add_xpath(name, xpath) 


最 后 ， 还 可 以 使 代码 更 加 好 看 。 硬 编码 todo .csv 文件 名 不 是 一 
个 非常 好 的 实践 。Scrapy 提 供 了 一 个 非常 便捷 的 方法 ， 用 于 传输 参数 
到 爬虫 当中 。 当 传输 一 个 命令 行 参数 -a 时 《比如 : -a 
variable=value) ， 束 会 为 我 们 设置 一 个 聆 虫 属性 ， 并 且 可 以 通 
过 self .variable 取得 该 值 。 为 了 检查 变量 ， 并 在 未 提供 该 变量 时 
使 用 默认 值 ， 可 以 使 用 Python 的 getattr() 方法 : getattr(self, 
'variable'，'default')。 总 之 ,我们 将 原来 的 with open... 
语句 替换 为 如 下 语句 。 


with open(getattr(self, "file", "todo.csv"), "rU") as f: 


现在 ， 除 非 明确 使 用 -a 参数 设置 源 文件 名 ， 否 则 将 会 使 用 
todo. csv 作为 其 默认 值 。 当 给 出 另 一 个 文件 another_todo ,csv 
时 ， 可 以 按 如 下 方式 运行 。 


$ scrapy crawl fromcsv -a file=another_todo.csv -o out.csv 


5.5 本章 小 结 


本 章 深入 讨论 了 Scrapy 讨 虫 的 内 部 机 制 。 我 们 学 习 了 使 用 
FormRequest 进行 登录 ， 使 用 Request/Response 的 meta 属性 传 
输 变量 ， 使 用 相对 XPath 表 达 式 和 Selector ， 以 及 使 用 ,csv 文件 作 


接 下 来 ， 第 6 章 会 讲解 如 何 将 爬虫 部 署 到 Scrapinghub 云 上 ， 第 7 章 
将 继续 深入 Scrapy 的 设置 。 


第 6 章 ”部 署 到 Scrapinghub 


在 前 面 的 几 间 中， 我 们 了 解 了 如 何 开 发 Scrapy 扑 忠 。 当 我 们 对 让 
虫 的 功能 感到 满意 时 ， 接 下 来 会 有 两 个 选项 。 如 果 我 们 需要 的 只 是 使 
用 它们 执行 简单 的 抓 取 工作 ， 那 么 此 时 使 用 开发 机 运行 即 可 。 而 另 一 
方面 ， 更 常见 的 情况 是 需要 周期 性 地 运行 抓 取 任务 ， 此 时 可 以 使 用 云 
服务 器 ， 如 Amazon、RackSpace 或 其 他 提供 商 ， 不 过 这 些 都 需要 创 
建 、 配 置 和 维护 工作 。 此 时 就 是 Scrapinghub 发 挥 作用 的 时 候 了 。 


Scrapinghub 是 Scrapy 托 管 的 Amazon 服 务 器 ， 它 是 由 Scrapy 开 发 者 
创建 的 Scrapy 云 基础 设施 提供 商 。 它 是 一 个 付费 服务 ， 不 过 也 提供 了 
人 免费 方案 。 如 果 你 想 在 几 分 钟 内 ， 就 能 够 让 Scrapy 疏 虫 运 行 在 专业 的 
创建 和 维护 环境 中 的 话 ， 那 么 本 章 非 常 适合 你 。 


6.1 注册 、 有 登录 及 创建 项 目 


第 一 步 是 在 http://scrapinghub.,com/ 上 面 创建 账号 。 我 们 
所 需 填 写 的 只 有 邮箱 地 址 和 密码 。 在 单 击 确认 邮件 的 链接 后 ， 就 可 以 
登录 到 其 服务 中 。 我 们 可 以 看 到 的 第 一 个 页 面 是 个 人 面板 。 目 前 ， 我 
们 还 没有 任何 项 目 ， 因 此 现在 单 击 +Service 按钮 (1) 来 创建 一 个 项 
目 ， 如 图 6.1 所 示 。 


i Š 1 
'scrapinghub Search > Notifications Help ~ Status Changelog scrapybook @ 
i 
r 


% Organizations & Services 


多 scrapybook organization + Member 


ES eee 


Add new service to organization 


| 


i | properties | 
io \ \ 
! $ scrapybook organization 1 ! 


! a = © 
| @ properties 


i i 
R NIE ONW Or a Naa 


a Scrapy Cloud Ah Portia er Crawlera 
2 


图 6.1 在 scrapinghub 上 创建 新 项 目 


将 项 目 命名 为 properties (2) ， 然 后 单 击 Create 按钮 (3) ° 
之 后 ， 单 击 主页 的 new 链接 (4) 打开 该 项 目 。 


项 目 面板 是 项 目 中 最 重要 的 页 面 。 在 左 侧 的 染 单 中 ， 可 以 看 到 几 
个 区 域 ， 如 图 6.2 所 示 。Jobs 和 Spiders 区 域 分 别提 供 关 于 运行 和 息 虫 
的 信息 。Periodic Jobs 允许 我 们 计划 定期 候 取 任务 。 而 男 外 4 个 区 域 目 
前 来 说 对 我 们 没有 那么 有 用 。 


scrapinghub Search 


properties 


Scrapy Cloud 


project id: 28814 
organization: scrapybook 
0 spiders, 0 members 


Jobs 
Spiders 


Collections 


Usage 


Reports 


Activity 


Periodic Jobs. 


Settings 


Pending Jot 
菜单 
Running Jol 
图 6.2” 主 菜单 


我 们 可 以 直接 前 往 Settings 区 域 (1) ， 如 图 6.3 所 示 。 与 很 多 网 站 
的 设置 不 同 ，Scrapinghub 的 设置 提供 了 很 多 功能 ， 需 要 你 十 分 了 解 它 
们 。 目 前 ， 我 们 的 主要 关注 点 是 Scrapy Deploy 区 域 (2) 。 


scrapinghub 


properties 
project id: 28814 


0 spiders, 0 members 


Jobs 
Spiders 
Collections 
Usage 
Reports 
Activity 
Periodic } 
| Settings 
Data Retention 
Eggs 
ltems 
Members 


Scrapy Deploy 


/ 


organization: scrapybook 


2 


> Notifications Help + 


Scrapy Cloud properties Settings Scrapy Deploy 


Copy and paste the following lines into your project's sc 
# Project: properties 


[deploy] 
url = httgs://dash.scrapinghub.com/api/scrapyd/ 


3. 复制 该 URL 


图 6.3 ”爬虫 部 署 设置 


6.2 ABRIR T 


我 们 将 直接 从 开发 机 进行 部 署 。 要 想 实 现 这 一 目标 ， 只 需 将 
Scrapy Deploy 页 面 中 的 代码 (3) 拷贝 到 项 目 中 的 scrapy ,cfg 文件 
中 ， 替 换 掉 默认 的 [deploy] 区 域 即 可 。 你 会 注意 到 我 们 并 不 需要 设 
置 密码 。 我 们 将 使 用 第 4 章 中 的 房产 项 目 作 为 示例 ， 使 用 该 疏 虫 的 原因 
是 目标 数据 需要 能 够 在 网 络 上 访问 到 ， 和 人 第 4 章 使 用 的 情况 一 样 。 在 使 
用 它 之 前 ， 需 要 恢复 原始 的 settings ,py 文件 ， 移 除 和 Appery.io 管 
道 相关 的 引用 。 


本 章 代码 在 ch96 目录 中 。 其 中 ， 该 示例 位 于 chg6/properties H 


$ pwd 


/root/book/ch06/properties 


$ 1s 


properties scrapy.cfg 


$ cat scrapy.cfg 


[settings] 


default = properties.settings 


# Project: properties 


[deploy] 


url = http://dash.scrapinghub.com/api/scrapyd/ 


username = 180128bc7a0..... 50e8290dbf3b0 


password = 


project = 28814 


Ay YS PBSC, A EE A Scrapinghubte ft shub 工具 。 可 以 
通过 pip install shub 安装 该 工具 ， 不 过 我 们 已 经 在 开发 机 中 已 
经 安 闭 好 该 工具 了 。 可 以 使 用 下 述 方 法 登录 Scrapinghub。 


$ shub login 


Insert your Scrapinghub API key : 180128bc7a0 50e8290dbf3b0 


Success. 


我 们 已 经 将 API key 复 制 到 scrapy .cfg 文件 中 了 ， 不 过 也 可 以 
通过 单 击 Scrapinghub 网 站 右上 角 的 用 户 名 ， 再 单 击 API Key 找到 该 
值 。 无 论 如 何 ， 现 在 我 们 已 经 准备 好 使 用 shub deploy RAER 
o 


$ shub deploy 


Packing version 1449092838 


Deploying to project "28814" in {"status": "ok", "project": 28814, 


"version": "1449092838", "spiders": 1} 


Run your spiders at: https://dash.scrapinghub.com/p/28814/ 


Scrapy AIA PAPA Me RFT a, FFE 2Scrapinghub4 # ° 
可 以 注意 到 ， 此 时 产生 了 两 个 新 目 孙 和 一 个 新 文件 。 这 些 只 是 辅助 文 
件 ， 如 果 不 需 要 的 话 ， 可 以 安全 地 删除 它们 ， 不 过 通常 情况 下 没 必要 
ERE] ° 


$ ls 


build project.egg-info properties scrapy.cfgsetup.py 


$ rm -rf build project.egg-info setup.py 


现在 ， 当 单 击 Scrapinghub 的 Spiders 区 域 (1) 时 ， 可 以 找到 刚刚 
部 署 的 tomobile 疏 虫 ， 如 图 6.4 所 示 。 


> Notifications Help ~ 


scrapingnubD 

prope rties Scrapy Cloud properties / Spiders 

project id: 28813 

organization: scrapybe | < Spiders 

1 spiders, 0 members 2 

Jobs Archived spiders 
| Spiders 

ider Last Run ^ 
Collections 
tomobile = 

Usage 

Reports 

Activity 10 $ Spiders per page 


Periodic Jobs 


Sattinac 


图 6.4 AFER 


当 单 击 它 时 (2) ， 会 进入 到 把 虫 面板 ， 如 图 6.5 所 示 。 该 面板 中 
息 ， 不 过 日 前 我 们 需要 做 的 就 是 单 击 右上 角 的 Schedule 按 
尖 后 在 弹出 的 对 话 框 中 再 次 单 击 Schedule 按钮 (4) ° 


Fa 


| Watch ~ | Go to Portia m Spa ese ea A E T i 
! Schedule Spider 
3 ! Current version | 


' Spiders 


EE E ee 


tomobile 


3 Running Jot (1) 5 | Ni 


of Job Spider nems yo We Errors Log Runtime ， Schedule ! 


l 1/1 194309 423 391 0 14 0:01:27 | ep Enn 
j | Completed Jobs (1) 8 | 
1 ! Job Spider p Items © | 
tomobile wÀ. | 

1/1 1449097769 14 | 


Remove Restart 


lo 


图 6.5 ”计划 扑 虫 运行 


几 秒 钟 之 后 ， 可 以 在 页 面 中 的 Running Jobs 区 域 看 到 新 的 一 行 ， 
之 后 Requests 和 Items 的 数值 (5) 开始 不 断 增长 。 


与 开发 时 的 运行 速度 相 比 ， 此 时 的 运行 速度 可 能 不 会 降低 。 
Scrapinghub 使 用 了 算法 预 佑 每 秒 的 请 求 数 ， 能 够 让 你 在 执行 时 不 会 被 屏 


儿 秒 钟 之 后 ， 我 们 的 任务 将 会 停止 ， 并 进入 Completed Jobs 区 
域 。 要 想 查 看 已 经 抓 取 的 条 目 ， 可 以 单 击 items 链 接 中 的 数字 (8) 。 


6.3 ”访问 item 
现在 ， 我 们 需要 前 往 任 务 页 ， 如 图 6.6 所 示 。 在 该 页 中 ， 可 以 查看 


到 我 们 的 item (9) ， 并 确保 其 没有 问题 。 我 们 还 可 以 使 用 上 面 的 控件 
进行 过 滤 。 当 问 下 深 动 页 面 时 ， 更 多 的 item 会 被 目 动 加 载 出 来 。 


iders tomobile ob 1 
e 
Filter by Field: fiel X oc acti ” All items $ ow Scrape 
Item 0 2015-12-02 21:49:10 UTC 9 s jare | 

same XML 12 
description smol! king Sample 13 

reception refurbished studio length selection newington fi de Random 
price 280.03 Latest 
url http:/ /scrapybook.s3.amazonaws.com/properties/pr, 000.html 
address Chiswick, London 
date 1449092934903 
image_urls http://scrapybook.s3.amazonaws.com/images/i13.jpg 
proj properties 
server hw-shared-02-s4 


图 6.6 ”查看 及 导出 item 


如 果 存 在 一 些 没 能 正常 运行 的 情况 ， 可 以 在 Items 上 方 的 Requests 
和 Log 中 找到 有 用 的 信息 (10) 。 可 以 使 用 顶部 的 面包 悄 导 航 回 到 扑 
虫 或 项 目 中 (11) 。 当 然 ， 也 可 以 通过 单 击 左上 方 的 Items 按钮 

(12) ， 选 择 合 适 的 选项 (13) ， 将 item 以 常见 的 CSV、JSON、JSON 
行 等 格式 下 载 下 来 。 


男 一 种 访问 item 的 方式 是 通过 Scrapinghub 提 供 的 Items API。 我 们 
所 需 做 的 惑 是 查看 任务 或 items 页 面 中 的 URL， 类 似 于 下 面 这 样 。 


https://dash.scrapinghub.com/p/28814/job/1/1/ 


在 该 URL 中 ，28814 是 项 目 编号 〈 之 前 在 scrapy .cfg 文件 中 设 
置 过 该 值 ) ， 第 一 个 1 是 该 仆 虫 的 编号 /ID 〈 即 "tomobile "(E) , i 
第 二 个 1 则 是 任务 编号 。 以 上 述 顺 序 使 用 这 3 个 数值 ， 并 使 用 我 们 的 用 
户 名 /API Key 进 行 验证 ， 就 可 以 在 控制 台中 使 用 curl 建立 到 
https://storage.scapinghub.com/ items/<project 
id>/<spider id>/<job id> 的 请 求 ， 获 取 item， 该 过 程 如 下 所 
示 。 


$ curl -u 180128bc7a0 50e8290dbf3b0: 
https://storage.scrapinghub.com/ 


items/28814/1/1 


{"_type":"PropertiesItem", "description": ["same\r\nsmoking\r\nr... 


{"_type":"PropertiesItem", "description": ["british bit keep eve... 


如 果 它 请 求 输入 密码 ， 我 们 将 其 留 空 即 可 。 人 允许 编程 访问 数据 的 
特性 使 得 我 们 可 以 编写 应 用 ， 使 用 Scrapinghub 作 为 数据 存储 后 端 。 不 


过 需要 广 意 的 征 ， 这 些 数据 并 不 是 无 限期 存储 的 ， 而 是 依赖 于 订阅 方 


JUN 


案 中 的 存储 时 间 限 制 (对 于 免费 方案 来 说 该 限制 为 7 天 ) 。 


6.4 TERIER IRR 


ENE 4 PROT BIT RIE ERES RB BILE lei, RIK 
\ 会 再 感到 惊讶 了 。 

该 过 程 如 图 6.7 所 示 。 我 们 只 需要 前 往 Periodic Jobs 区 域 (1) , 
单 击 Add (2) , REER (3) , ICR 4) ， 最 后 单 击 
Save 即 可 (5) 。 


> Notifications Help ~ Status Changelog scrapybook @ 


scrapinghub Search 
properties Scrapy Cloud properties / Periodic Jobs De 


project id: 28814 
organization: scrapybook Spiders 


1 spiders, 0 members i Serr p 
Month |Add Periodic Job 3 ed Actions 


Jobs 1 
Spiders 1 Scripts : Spiders P4 Choose Month 
Collections ; ' tomobile Every month 

No scripts, | 
Usage ! Tags Choose Day of Week 
Reports i Type to add tags Every day $ 
Activity ' 

i Priority Choose Day of Month 


‖ Periodic Jobs 
Settings Normal Every day 
a Arguments © Choose Hour 2 ——_s www === == == === === 
Every hour 


Choose Minutes 


图 6.7 计划 定时 换取 


65 ”本章 小 结 


在 本 革 中 ， 我 们 拥有 了 第 一 次 部 署 Scrapy 项 目的 经 验 ， 这 里 我 们 
使 用 了 Scrapinghub 将 其 部 署 到 云端 。 我 们 计划 运行 任务 ， 收 集 上 于 个 
item， 并 且 可 以 通过 使 用 API 的 方式 非常 容 易 地 浏 响 和 抽取 和 它们。 在 接 
下 来 的 章节 中 ， 我 们 将 会 继续 提高 知识 水 平 ， 为 目 己 创建 一 个 类 似 
Scrapinghub 的 小 型 服务 右 。 首 和 完 ， 我 们 会 在 下 一 革 中 学 习 配 置 和 管 
理 。 


第 7 章 ”配置 与 管理 


前 面 革 方 讲解 了 使 用 Scrapy 开 发 一 个 位 单 仆 虫 ， 并 用 它 从 网 络 上 
抽取 数据 古 多 么 们 单 。Scrapy 包 含 很 多 工具 和 功能 ， 可 以 通过 设置 使 
它们 可 用 。 对 于 许多 软件 框架 来 说 ， 设 置 是 “ 令 人 讨厌 的 东西 "， 因 为 
它 需 要 根据 系统 如 何 运 转 进行 调整 。 而 对 于 Scrapy 来 说 ， 设 置 则 是 其 
最 重要 的 基本 机 制 之 一 ， 除 了 调 优 和 配置 外 ， 还 可 以 局 用 功能 ， 以 及 
允许 我 们 扩展 框架 。 我 们 不 打算 与 优秀 的 Scrapy 文 档 范 争 ， 只 想 辅助 
你 更 快 地 浏览 设置 概况 ， 并 找 出 与 你 最 相关 的 内 容 。 当 你 准备 在 生产 
环境 中 进行 变更 之 前 ， 请 仔细 阅读 Scrapy 文 档 。 


7.1 使 用 Scrapy 设 置 


在 Scrapy 中 ， 可 以 按照 5 个 递增 的 优先 级 修改 设置 。 我 们 将 会 依次 
看 到 这 5 个 等 级 。 第 一 级 是 默认 设置 ， 通 常 不 需要 修改 它 ， 不 过 
scrapy/settings/default_settings.py (在 系统 的 Scrapy 源 
代码 或 Scrapy 的 GitHub 中 可 以 找到 ) 中 的 代码 确实 值得 一 读 。 默 认 设 
置 在 命令 级 别 中 得 以 优化 。 实 际 上 ， 除 非 想 要 实现 目 定义 命令 ， 否 则 
无 需 考 虚 它 。 通 常情 况 下 ， 我 们 只 会 在 命令 级 别 下 一 级 的 项 目 
<project_name>/settings.py 文件 中 修改 设置 。 这 些 设置 只 应 
用 于 当前 项 目 。 该 级 别 最 为 方便 ， 因 为 当 我 们 将 项 目 部 署 到 云 服务 
T, settings.py 文件 将 会 打包 在 其 中 ， 并 且 由 于 它 是 一 个 文件 ， 
因此 可 以 使 用 上 自己 喜欢 的 文本 编辑 絮 轻 松 调整 几 十 个 设置 。 接 下 来 一 


级 是 每 个 爬虫 的 设置 。 通 过 在 爬虫 定义 中 使 用 custom_settings Æ 
性 ， 可 以 轻松 地 为 每 个 朴 虫 自 定 义 设 置 。 比 如 ， 可 以 通过 该 设置 为 一 
个 指定 的 聆 虫 启用 或 禁用 Item 管 道 。 最 后 ， 对 于 一 些 临 时 修改 ， 可 以 
使 用 命令 行 参数 -s ， 在 命令 行 中 传输 设置 。 我 们 在 前 面 已 经 使 用 过 几 
次 ， 比 如 -s CLOSESPIDR_PAGECOUNT=3 ， 即 用 于 启用 息 虫 关闭 扩 
展 ， 以 便 候 虫 尽 早 关闭 。 在 该 级 别 中 ， 我 们 可 能 会 去 设置 API 
secrets、 和 密码 等 。 不 要 将 这 些 信息 写 入 settings.py 文件 中 ， 因 为 
你 不 会 希望 它们 意外 出 现在 某 些 公开 代码 库 当 中 。 


在 本 节 中 ， 我 们 将 会 研究 一 些 非常 重要 的 常用 设置 。 为 了 感受 不 
同类 型 ， 可 以 在 任意 项 目 中 尝试 如 下 命令 。 


$ scrapy settings --get CONCURRENT REQUESTS 


16 


你 得 到 的 是 其 默认 值 。 人 然后， 修改 项 目 中 的 
<project_name>/settings.py XIF, 为 
CONCURRENT_REQUESTS 设置 一 个 值 ， 比 如 14。 此 时 ， 前 面 的 
scrapy settings 命令 将 会 给 出 你 刚刚 设置 的 那个 值 ， 之 后 不 要 雹 
记 恢 复 该 值 。 接 下 来 ， 党 试 从 命令 行 中 显 式 设置 该 参数 ， 将 会 得 到 如 
下 结果 。 


$ scrapy settings --get CONCURRENT_REQUESTS -s 
CONCURRENT_REQUESTS=19 


前 面 的 输出 提示 了 一 个 很 有 意思 的 事情 。scrapy cwarl 和 
scrapy settings 都 只 是 命令 。 每 个 命令 都 能 使 用 刚才 描述 的 加 载 
设置 的 方法 ， 其 示例 如 下 所 示 。 


$ scrapy shell -s CONCURRENT_REQUESTS=19 


>>> settings.getint('CONCURRENT_REQUESTS' ) 


19 


当 需 要 找 出 项 目 中 茶 个 设置 的 有 效 值 时 ， 可 以 使 用 前 面 给 出 的 任 
意 一 种 方法 。 现 在 ， 我 们 需要 更 加 仔细 地 了 解 Scrapy 的 设置 。 


7.2 ”基本 设置 
Scrapy 包 含 非常 多 的 设置 ， 因 此 为 其 分 类 成 为 了 一 个 迫切 的 需 


求 。 我 们 将 会 从 图 7.1 中 总 结 出 的 大 部 分 基本 设置 开始 讨论 。 通 过 它们 
了 解 重要 的 系统 特性 ， 并 且 我 们 还 将 频繁 地 调整 它们 。 


~ DEPTH_LIMIT 


LOG_LEVEL ~ Depth | DEPTH_PRIORITY 
LOGSTATS_INTERVAL = SCHEDULER_DISK_QUEUE 
LOG_ENABLED | FA al 9 ~ SCHEDULER_MEMORY_QUEUE 
LOG_FILE | Pa =) 入 ~ ROBOTSTXT_OBEY 


LOG_STDOUT / / if ~ COOKIES_ENABLED 
STATS_DUMP 4 / TEAR = REFERER_ENABLED 


DOWNLOADER_STATS ~ ~ USER_AGENT 
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DEPTH_STATS -| 局 统计 -| 分 析 |  DEFAULT_REQUEST_HEADERS 
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TELNETCONSOLE_ENABLED ~ | FEED_URI 
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| Ñ |. FEED_STORE_EMPTY 
| Feeds | FEED_EXPORT_FIELDS 
CONCURRENT_REQUESTS | | L FEED_URI_PARAMS 
CONCURRENT_REQUESTS_PER_DOMAIN -| | 
CONCURRENT_REQUESTS_PER_IP ~ \ | 
CONCURRENT_ITEMS - _ | | IMAGES_STORE 
DOWNLOAD_TIMEOUT -| IMAGES_EXPIRES 
DOWNLOAD_DELAY -| 性 能 IMAGES_THUMBS 
RANDOMIZE_DOWNLOAD_DELAY ~} 基本 设置 图 像 | IMAGES_URLS_FIELD 


IMAGES_MIN_WIDTH 
媒体 下 载 FILES_STORE 
FILES_EXPIRES 
FILES_URLS_FIELD 
FILES_RESULT_FIELD 
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CLOSESPIDER_TIMEOUT J 关闭 | | 


~ 实体 


HTTPCACHE_ENABLED ~ 
HTTPCACHE_DIR 
HTTPCACHE_POLICY 


= 
图 AWS_ACCESS_KEY_ID 
Amazon ~ AWS_SECRET_ACCESS_KEY 


i 
1 
i 
i 
i 
4 
1 
i 
1 
i 
i 
i 
1 
1 
1 
1 
1 
1 
1 
i 
! A| - IMAGES_RESULT_FIELD 
+ sh) { Ù IMAGES_MIN_HEIGHT 
1 
1 
1 
i 
i 
i 
1 
i 
1 
i 
1 
i 
i 
1 
1 
1 
1 
J 
I 
1 
1 
1 
` 


] 
z 
HTTPCACHE_STORAGE | \ _ 服务 EA EE ee 
HTTPCACHE_DBM_MODULE | 多 F \ 
| 
| 


HTIPCACHE_EXPIRATION_SECS 


\ 
HTTPCACHE_IGNORE_HTTP_CODES HTTP \ ce http_proxy 2 
HTTPCACHE_IGNORE_MISSING ~ Sa ood | https_prooy Š= En, 
HTTPCACHE_IGNORE_SCHEMES ] 代理 no_proxy $ 


HTIPCACHE_GZIP ~ 


图 7.1 ”Scrapy 基 本 设置 


7.2.1 分 析 
使 用 这 些 设置 ， 你 可 以 配置 Scrapy， 使 其 通过 日 志 、 统 计 和 Telnet 
具 提 供 性 能 和 调试 信息 。 
i. Boe 
Scrapy 基 于 严重 程度 ， 拥 有 不 同 的 日 志 等 级 : DEBUG (最 低 等 
级 ) ` INFO 、WARNING ` ERROR 及 CRITICAL (最 高 等 级 ) 。 除 此 


之 外 ， 还 有 一 个 SILENT 等 级 ， 使 用 它 将 不 记录 任何 日 志 。 通 过 将 
LOG_LEVEL 设置 为 希望 日 志 记 录 的 最 低级 别 ， 可 以 限制 日 志文 件 只 


接受 指定 等 级 以 上 的 日 志 。 我 们 一 般 将 该 值 设 为 INFO ， 因 为 DEBUG 
级 别 过 于 详细 。 一 个 非常 有 用 的 Scrapy 扩 展 是 Log Stats 扩 展 ， 该 扩展 
会 打印 出 每 分 钟 抓 取 的 item 和 页 面 的 数量 。 日 志 频 率 使 用 
LOGSTATS_INTERVAL 进行 设置 ， 其 默认 值 为 60 秒 。 该 设置 的 频率 过 
低 ， 所 以 在 我 开发 时 ， 会 将 该 值 设置 为 5 秒 ， 因 为 大 多 数 运行 都 很 短 
暂 。 写 入 日 志 的 文件 可 以 通过 LOG_FILE 设置 。 除 非 将 
LOG_ENABLED 的 值 设 置 为 False 进行 显 式 禁 用 ， 否 则 日 志 将 会 输出 
到 标准 错误 当中 。 最 后 ， 可 以 通过 设置 LOG_STDOUT 为 True ， 告 知 
Scrapy 将 所 有 标准 输出 (比如: "print" 消 息 ) 写 入 日 志 。 


2. 统计 


STATS_DUMP 默认 是 开启 的 ， 它 会 在 爬虫 结束 运行 时 ， 将 统计 信 
奶 收 集 器 中 的 值 转 存 到 日 志 当 中 。 可 以 通过 将 DOWNLOADER_STATS 
设置 为 False ， 控 制 是 否 为 下 载 记录 统计 信息 。 还 可 以 通过 
DEPTH_STATS 设置 ， 控 制 是 否 收 集 站 点 深度 的 统计 信息 。 要 想 了 解 
有 关 深 度 的 更 多 细节 ， 可 以 将 DEPTH_STATS_VERBOSE 设 为 True 。 
STATSMAILER_RCPTS 是 一 个 邮件 列表 (比如 设置 为 
['my@mail.com']) ， 当 的 取 完成 时 ， 会 同 该 列表 中 的 邮箱 发 送 邮 
件 。 无 需 经 常 调整 这 些 设置 ， 不 过 它们 偶尔 会 在 调试 时 帮助 到 你 。 


3. Telnet 


Scrapy 包 含 一 个 内 置 的 Telnet 控 制 台 ， 可 以 为 你 提供 正在 运行 中 的 
Scrapy 进 程 的 Python shell。TELNETCONSOLE_ENABLED 默认 情况 下 


是 开启 的 ， 而 TELNETCONSOLE_PORT 决定 了 连接 到 控制 台 的 端口 。 
你 可 能 需要 修改 该 值 ， 以 防止 端口 冲突 。 


示例 1 一 一 使 用 Telnet 


在 某 些 情况 下 ， 和 需要 查看 正在 运行 的 Scrapy 的 内 部 状态 。 下 面 让 
我 们 看 看 如 何 使 用 Telnet 控 制 台 完成 该 操作 。 


本 章 代 码 位 于 chg7 目录 中 。 其 中 ， 本 示例 在 ch97/properties H 
录 中 。 


$ pwd 


/root/book/ch07/properties 


$ 1s 


properties scrapy.cfg 


使 用 如 下 命令 开始 仆 取 。 


$ scrapy crawl fast 


[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023:6023 


RNY BRA Telnet O24 BBE, FFE AA 6023.4 O EFT 
听 。 现 在 ， 可 以 在 另 一 个 终端 中 ， 使 用 telnet 命 令 连 接 它 。 


$ telnet localhost 6023 


此 时 ， 该 控制 台 会 提供 一 个 Scrapy 内 部 的 Python 控制 台 。 你 可 以 
查看 某 些 组 件 ， 比 如 使 用 engine 变量 查看 引擎， 不 过 为 了 能 够 更 快 
地 了 解 状态 概况 ， 可 以 使 用 est() 命令 。 


>>> est() 


Execution engine status 


time()-engine.start_time : 5.73892092705 


engine.has_capacity() : False 


len(engine. downloader .active) : 8 


len(engine.slot.inprogress) : 10 


len(engine.scraper.slot.active) : 2 


第 10 章 将 会 探讨 其 中 的 一 些 度量 标准 。 此 时 将 发 现 你 依然 是 在 
Scrapy3| 擎 内 部 运行 它 。 假 设 使 用 了 如 下 命令 : 


>>> import time 


>>> time.sleep(1) # Don't do this! 


此 时 ， 你 会 发 现在 另 一 个 终端 中 会 出 现 短 暂 的 暂停 。 显 然 ， 该 控 
S 天 地 点 。 你 可 以 在 该 控制 台中 操 
作 的 事情 还 包括 暂停 、 I 你 可 能 会 发 现 ， 在 远程 机 器 
ie 话 时 ， oe 清和 终端 通常 都 很 有 用 。 


>>> engine.pause() 


>>> engine.unpause() 


>>> engine.stop() 


Connection closed by foreign host. 


ee 


7.2.2 ”性 能 


第 10 章 将 会 详细 介绍 关于 性 能 的 设置 ， 这 里 仅 作 为 一 个 小 结 。 人 性 

能 设置 可 以 让 我 们 根据 特定 的 工作 负载 调整 Scrapy 的 性 能 特性 。 
CONCURRENT_REQUESTS 用 于 设置 同时 执行 的 最 大 请 求 数 。 大 多 数 
情况 下 ， 该 设置 用 于 防止 在 息 取 不 同 网 站 (域名 /IP) 时 超出 服务 器 出 
站 容量 。 除 此 之 外 ， 还 可 以 找到 更 加 严格 的 
CONCURRENT_REQUESTS_PER_DOMAIN 以 及 
CONCURRENT_REQUESTS_PER_IP 。 这 两 个 设置 分 别 通过 限制 同时 
对 每 个 域名 或 IP 地 址 发 出 的 请 求 数 ， 达 到 保护 远程 服务 器 的 效果 。 
当 CONCURRENT_REQUESTS_PER_IP 为 非 零 值 时 ， 
CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 。 这 些 设置 不 是 
以 秒 为 单位 的 。 如 果 CONCURRENT_REQUESTS = 16 ， 而 请 求 平均 
花费 1/4 秒 的 话 ， 你 的 限制 惑 古 每 秒 16/0.25 = 64 个 请 求 。 
CONCURRENT_ITEMS 用 于 设置 对 每 个 响应 同时 处 理 的 最 大 item 数 
o 你 可 能 会 发 现 该 设置 并 没有 它 看 起 来 那么 实用 ， 因 为 很 多 情况 

每 个 页 面 或 请 求 中 只 有 一 个 Item。 并 且 ， 其 默认 值 100 也 比较 随 
o 如果 减 小 该 值 ， 比 如 减 小 到 10 或 者 1， 你 甚至 可 能 会 看 到 性 能 提 

这 取决 于 每 个 请 求 的 Item 数 量 ， 以 及 管道 的 复杂 程度 。 还 需要 注 
意 的 是 ， 由 于 该 值 是 每 个 请 求 时 的 数量 ， 如 果 限 制 了 
CONCURRENT_REQUESTS = 16 、CONCURRENT_ITEMS = 100, 


it Sak 1a 


那么 可 能 意味 着 会 有 1600 个 item 同 时 在 尝试 写 入 数据 库 。 一 般 来 说 ， 
建议 将 该 值 设置 得 更 保守 一 些 。 


对 于 下 载 ，DOWNLOAD_TIMEOUT 决定 了 下 载 器 在 取消 一 个 请 求 
之 前 需要 等 待 的 时 间 ， 其 默认 值 为 180 秒 ， 这 似乎 有 些 偏 高 ( 当 并 发 请 
求 数 为 16 时 ， 这 意味 着 站 点 下 载 的 速度 大 约 为 5 页 /分 钟 ) 。 建 议 降 低 
该 值 ， 比 如 当 存 在 超时 问题 时 ， 将 其 降低 为 10 秒 。 默 认 情 况 下 ， 
Scrapy 将 两 次 下 载 间 的 延迟 设置 为 0， 以 最 大 化 抓 取 速 度 。 可 以 使 用 
DOWNLOAD_DELAY 设置 将 其 修改 为 更 加 保守 的 下 载 速度 。 有 些 网 站 
会 将 请 求 频率 作为 "机 器 人 “行为 的 测量 指标 。 通 过 设置 
DOWNLOAD_DELAY ， 还 会 在 下 载 延 返 中 启用 一 个 +50% 的 随机 偏 移 
量 。 可 以 通过 将 RANDOMIZE_DOWNLOAD_DELAY 设置 为 False 来 禁 
用 该 功能 。 


最 后 ， 为 了 更 快 的 DNS 查找 ，Scrapy 默 认 使 用 了 
DNSCACHE_ENABLED 设置 ， 启 用 了 内 存 中 的 DNS 缓存 。 


7.2.3 ”提前 终止 仆 取 


Scrapy 的 CloseSpider 扩 展 可 以 在 达成 某 个 条 件 时 ， 上 自动 终止 疏 虫 
ER e BT LL} HI  FACLOSESPIDER_TIMEOUT (以 秒 计 ) 
CLOSESPIDER_ITEMCOUNT ` CLOSESPIDER_PAGECOUNT 以 及 
CLOSESPIDER_ERRORCOUNT 这 些 设置 ， 配 置 在 一 段 时 间 后 、 抓 取 一 
定数 量 item 后 、 接 收 到 一 定数 量 啊 应 后 或 是 遇 到 一 定数 量 错误 后 ， 关 
闭 讨 虫 。 通 常情 况 下 ， 你 会 在 运行 爬虫 时 使 用 命令 行 的 方式 设置 这 些 
内 容 ， 我 们 已 经 在 前 面 的 儿 章 中 做 过 儿 次 此 类 操作 。 


$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10 


$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10 


$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10 


7.2.4 HTTP 缓存 和 离线 运行 


Scrapy 的 HttpCacheMiddleware 组 件 (默认 未 激活 ) 为 HTTP 
请 求 和 响应 提供 了 一 个 低级 的 缓存 。 当 启用 该 组 件 时 ， 缓 存 会 存储 每 
个 请 求 及 其 对 应 的 响应 。 通 过 将 HTTPCACHE_POLICY 设置 为 
scrapy.contrib.httpcache.RFC2616Policy ， 可 以 启用 一 个 
遵从 RFC2616 的 更 复杂 的 缓存 策略 。 为 了 启用 该 缓存 ， 还 需要 将 
HTTPCACHE_ENABLED 设置 为 True ， 并 将 HTTPCACHE_DIR 设置 为 
文件 系统 中 的 一 个 目录 〈 使 用 相对 路 径 将 会 在 项 目的 数据 文件 夹 下 创 
建 一 个 目录 ) 。 


还 可 以 选择 通过 设置 存储 后 端 类 HTTPCACHE_STORAGE 为 
scrapy.contrib.httpcache.DbmCacheStorage ， 为 缓存 文件 
指定 数据 库 后 端 ， 并 且 还 可 以 选择 调整 HITPCACHE_DBM_MODULE 
设置 (默认 为 任意 数据 库 管理 系统 ) 。 还 有 一 些 设置 可 以 用 于 缓存 行 
为 调 优 ， 不 过 默认 值 已 经 能 够 为 你 很 好 地 服务 了 。 
示例 2 一 一 使 用 缓存 的 离线 运行 


假设 你 运行 了 如 下 代码 : 


$ scrapy crawl fast -s LOG_LEVEL=INFO -s 
CLOSESPIDER_ITEMCOUNT=5000 


你 会 发 现 大 约 一 分 钟 后 运行 可 以 完成 。 如 果 此 时 无 法 访问 Web 服 
务 右 ， 可 能 吏 无 法 息 取 任何 数据 。 假 设 你 现在 使 用 如 下 代码 ， 再 次 运 
行 候 虫 。 
$ scrapy crawl fast -s LOG LEVEL=INFO -s 


CLOSESPIDER ITEMCOUNT=5000 -s 


HTTPCACHE_ENABLED=1 


INFO: Enabled downloader middlewares:.. .*HttpCacheMiddleware* 


你 会 注意 到 此 时 启用 了 HttpCacheMiddleware ， 当 查看 当前 
目录 下 的 隐藏 日 录 时 ， 将 会 发 现 一 个 新 的 .scrapy 目录 ,目录 结构 如 
下 所 示 。 


$ tree .scrapy | head 


.SCrapy 


L— httpcache 


L— easy 


| 一 00 


| 上 一 002054968919f13763a7292c1907caf06d5a4810 


| | |— meta 


| | | 一 pickled_meta 


| | | 一 request_body 


| | | 一 request_headers 


| | | 一 response_body 


现在 ， 如 果 重新 运行 候 虫 ， 获 取 略 少 于 前 面 数 量 的 item 时 ， 就 会 
发 现 即 使 在 无 法 访问 Web 服 务 器 的 情况 下 ， 也 能 完成 得 更 加 迅速 。 


$ scrapy crawl fast -s LOG LEVEL=INFO -s 
CLOSESPIDER ITEMCOUNT=4500 -s 


HTTPCACHE_ENABLED=1 


我 们 使 用 了 略 少 于 前 面 数量 的 item 作 为 限制 ， 是 因为 当 使 用 
CLOSESPIDER_ITEMCOUNT 结束 时 ， 一 般 会 在 怜 虫 完全 结束 前 读 取 
更 多 的 页 面 ， 但 我 们 不 希望 命中 的 页 面 不 在 缓存 范围 内 。 要 想 清理 组 
存 ， 只 需 删 除 缓存 目录 即 可 。 


$ rm -rf .scrapy 


7.2.5 ERU 


Scrapy RFRA Vale FE (CFC MCA TD ATT Zo BY LATE 
DEPTH_LIMIT 设置 中 设 定 最 大 深度 ， 该 值 为 0 时 表示 不 限制 。 通 过 
DEPTH_PRIORITY 设置 ， 可 以 基于 请 求 的 深度 指定 优先 级 。 最 值得 
注意 的 是 ， 可 以 将 该 值 设置 为 正 数 ， 以 执行 广度 优先 息 取 ， 并 将 任务 
队列 由 LIFO (后 入 先 出 ) 转 为 FIFO (先入 先 出 ) : 


DEPTH_PRIORITY = 1 


SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' 


SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' 


TERHI EAH, HOO, EA ad 


中 ， 最 近 的 新 闻 更 应 该 接近 首页 ， 并 且 每 个 新 闻 页 都 有 到 其 他 相关 新 
闻 的 链接 。Scrapy 的 默认 行为 是 对 首页 的 前 儿 个 新 闻 报 道 进行 尽 可 能 
深 地 疏 取 ， 之 后 才 会 继续 疏 取 接 下 来 的 头 版 新 闻 。 而 广度 优先 的 顺序 
则 是 首先 聆 取 最 顶层 的 新 闻 ， 之 后 才 会 进一步 深入 ， 当 结合 
DEPTH_LIMIT 设置 时 ， 比 如 设 为 3， 可 以 让 你 快速 浏览 门户 网 站 中 最 
近 的 新 闻 。 


网 站 在 其 根 日 录 下 使 用 Web 标 准 的 robots .txt 文件 ， 声 明 它 们 
允许 的 把 取 策略 ， 以 及 不 希望 被 访问 的 网 站 结构 。 如 有 果 将 
ROBOTSTXT_OBEY 设置 为 True ，Scrapy 将 会 遵守 该 约定 。 如 果 启 用 
了 该 设置 ， 请 在 调试 时 记 住 该 点 ， 以 防 发 现任 何 意 外 的 行为 。 


CookiesMiddleware 显然 包含 了 和 cookie 相关 的 所 有 操作 ， 
其 中 包括 会 话 跟 踪 、 准 许 登 录 等 。 如 果 你 想 拥 有 更 “私密 ”的 仆 取 ， 可 
以 通过 将 COOKIES_ENABLED 设置 False 以 禁用 。 禁 用 cookie 还 会 轻 
微 降 低 你 使 用 的 带宽 ， 并 且 可 能 会 对 你 的 候 取 操作 有 一 点 提速 ， 当 然 
它 会 依赖 于 你 仆 取 的 网 站 。 与 CookiesMiddleware 类 似 ， 
REFERER_ENABLED 的 默认 设置 是 True ， 即 启用 了 用 于 填充 Referer 
头 的 RefererMiddleware 。 可 以 使 用 


DEFAULT_REQUEST_HEADERS 自 定义 头 部 。 你 可 能 会 发 现 该 设置 对 
于 某 些 奇怪 的 网 站 很 有 用 ， 在 这 些 网 站 中 只 有 包含 了 特定 请 求 头 的 请 
求 才 不 会 被 禁止 。 最 后 ， 自 动 生成 的 Settings .py 文件 推荐 我 们 设 
置 USER_AGENT 。 该 设置 的 默认 值 是 Scrapy 的 版 本 ， 而 我 们 需要 将 其 
修改 为 能 够 让 网 站 拥有 者 联系 到 我 们 的 信息 。 


7.2.6 feed 


feed 可 以 让 你 将 Scrapy 抓 取得 到 的 数据 输出 到 本 地 文件 系统 或 远程 
服务 器 当中 。FEED_URI ,FEED_URI 决定 了 feed 的 位 置 ， 该 设置 中 可 
能 会 包含 命名 参数 。 比 如 ，scrapy fast -o "%(name)s_% 
(time)s.jl" 将 会 自动 以 当前 时 间 和 扑 虫 名 称 (fast ) 填充 输出 文 
件 名 。 如 采 需 要 使 用 一 个 自 定 义 参 数 ， 比 如 %(foo)s ， 那 么 feed 输 
出 器 需要 你 在 爬虫 中 提供 foo 属性 。 此 外 ，feed 的 存储 ， 如 S3、FTP 
或 本 地 文件 系统 ， 也 定义 在 URI 中 。 例 如 ， 
FEED_URI='s3://mybucket/file.json' 将 使 用 你 的 Amazon 赁 
证 (AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY ) 上 传 文 
件 到 Amazon 的 S3 当 中 。Feed 的 格式 (JSON ` JSON Line、CSV 及 
XML) 可 以 使 用 FEED_FORMAT 确定 。 如 果 没 有 设 定 该 设置 ，Scrapy 
将 会 根据 FEED_URI 的 扩展 名 猜测 格式 。 通 过 将 
FEED_STORE_EMPTY 设置 为 True ， 可 以 选择 输出 空 的 feed。 此 外 ， 
还 可 以 使 用 FEED_EXPORT_FIELDS 设置 ， 选 择 只 输出 指定 的 几 个 字 
段 。 该 设置 对 于 具有 固定 标题 列 的 ,csv 文件 尤其 有 用 。 最 后 ， 
FEED_URI_PARAMS 用 于 定义 对 FEED_URI 中 任意 参数 进行 后 置 处 理 
的 函数 。 


7.2.7 媒体 下 载 


Scrapy 可 以 使 用 图 像 管 道 下 载 媒体 内 容 ， 此 外 还 可 以 将 图 像 转换 
为 不 同 的 格式 、 生 成 缩 上 略图 以 及 基于 大 小 过 滤 图 像 。 


IMAGES_STORE 设置 用 于 设 定 图 像 存储 的 目录 〈 使 用 相对 路 径 
时 ， 将 会 在 项 目 根 目录 下 创建 目录 ) 。 每 个 Item 的 图 像 URL 应 该 在 
image_urls 字段 中 设 定 〈 可 以 被 IMAGES_URLS_FIELD 设置 覆 
写 ) ， 而 下 载 图 像 的 文件 名 则 是 在 一 个 新 的 Images 字段 中 设 定 (可 
以 被 IMAGES_RESULT_FIELD KEAS) 。 可 以 使 用 
IMAGES_MIN_WIDTH 和 IMAGES_MIN_HEIGHT 设置 过 滤 过 小 的 图 
像 。IMAGES_EXPIRES 决定 了 图 像 在 过 期 前 保留 在 缓存 中 的 天 数 。 
对 于 缩 略 图 的 生成 ， 可 以 使 用 IMAGES_THUMBS 设置 ， 它 可 以 让 你 按 
照 一 种 或 多 种 尺寸 生成 缩 略 图 。 比 如 ， 可 以 让 Scrapy 生 成 一 种 图 标 大 
小 的 缩 略 图 以 及 一 种 用 于 每 次 图 像 下 载 时 的 中 等 大 小 缩 略图 。 


1. 其 他 媒体 


可 以 使 用 文件 管道 下 载 其 他 媒体 文件 。 与 图 像 类 似 ， 
FILES_STORE 设置 用 于 确定 已 下 载 文 件 的 存放 位 置 ， 而 
FILES_EXPIRES 设置 用 于 确定 文件 保留 的 天 数 。 
FILES_URLS_FIELD 以 及 FILES_RESULT_FIELD 设置 都 和 对 应 的 
IMAGES_* 设置 的 功能 相似 。 文 件 管道 和 图 像 管 道 可 以 同时 激活 ， 不 
会 产生 冲突 。 


示例 3 一 一 下 载 图 像 


为 了 能 够 使 用 图 像 功能 ， 必 须 使 用 sudo pip install image 
装 图 像 包 。 在 我 们 的 开发 机 中 ， 已 经 为 大 家 安装 好 该 三 方 包 了 。 想 
要 启用 图 像 管道 ， 只 需要 编辑 项 目的 settings . py 文件 ， 添 加 少量 
设置 。 首 先 ， 需 要 在 ITEM_PIPELINES 中 包含 
scrapy.pipelines.images.ImagesPipeline。 然 后 ， 设 置 
IMAGES_STORE 为 相对 路 径 "images" ， 此 外 还 可 以 选择 通过 
IMAGES_THUMBS 设置 一 些 缩 略 图 的 描述 ， 相 关 代 码 如 下 所 示 。 


ITEM_PIPELINES = { 


"scrapy.pipelines.images.ImagesPipeline': 1, 


} 
IMAGES_STORE = 'images' 
IMAGES_THUMBS = { 'small': (30, 30) } 


我 们 在 Item 中 已 经 包含 了 合适 的 jmage_urls 字段 ， 所 以 现在 可 
以 参照 如 下 命令 执行 仆 虫 了 。 


$ scrapy crawl fast -s CLOSESPIDER ITEMCOUNT=90 


DEBUG: Scraped from <200 
http://http: //web:9312/.../index_00003.htm1/ 


property_000001. htm1>{ 


"image_urls': [u'http://web:9312/images/i02.jpg'], 


"images': [{'checksum': 'c5b29f4b223218e5b5beece79fe31510', 


'path': 'full/705a3112e67...a1f.jpg', 


'url': 'http://web:9312/images/i02.jpg'}], 


$ tree images 
images 


| 一 full 


| | 一 Oabf072604df23b3be3ac51c9509999fa92ea311. jpg 


| | 一 1520131b5cc5f 656bc683ddf5eab9b63e12c45b2. jpg 


L— thumbs 


L— small 


| 一 Oabf072604df23b3be3ac51c9509999fa92ea311. jpg 


| 一 1520131b5cc5f656bc683ddf5eab9b63e12c45b2. jpg 


可 以 看 到 图 像 成 功 下 载 ， 并 且 创 建 了 缩 略 图 。 主 文件 的 JPG 名 称 
按照 预期 存储 在 了 images 字段 当中 ， 因 此 很 容易 推测 缩 略图 的 路 
径 。 如 果 想 要 清空 图 像 ， 我 们 可 以 使 用 rm -rf images ° 


7.2.8 Amazon Web 服 务 


Scrapy 对 访问 Amazon Web 服 务 有 内 置 文 持 。 你 可 以 在 
AWSACCESS KEY_ID 设 置 中 存储 AWS 访 问 密 钥 ， 在 
AWS_SECRET_ACCESS_KEY 设 置 中 存储 私密 密 钥 。 默 认 情 况 下 ， 这 
些 设置 均 为 空 。 可 以 在 如 下 场景 中 使 用 : 


。 当 下 载 以 s3:// 开头 的 URL 时 (而 不 是 https:// 等 ) ; 
。 当 通 过 媒体 管道 使 用 s3:// 路 径 存 储 文件 或 缩 略 图 时 ; 
。 当 在 s3:// 目录 中 存储 Item 的 输出 Feed 时 。 


不 要 将 这 些 设置 存储 在 settings.py 文件 当中 ， 以 防 未 来 某 天 
由 于 任何 原因 造成 代码 公开 时 被 泄露 。 
7.2.9 ”使 用 代理 和 把 虫 


Scrapy 的 HttpProxyMiddleware 组 件 允 许 你 使 用 代理 设置 ， 根 
据 UNIX 约 定 ， 这 些 设置 是 通过 http_proxy、https_proxy 以 及 
no_proxy 这 几 个 环境 变量 定义 的 。 该 组 件 默认 是 启用 状态 的 。 


示例 4 一 一 使 用 代理 和 Crawlera 的 智能 代理 


DynDNS (或 任何 类 似 的 服务 ， 提 供 了 一 个 免费 的 在 线 工具 ， 用 
于 查看 当前 的 IP 地 址 。 使 用 Scrapy shell， 我 们 问 


checkip.dyndns.org 发 送 请 求 ， 查 看 啊 应 ， 获 取 当 前 的 卫 地 址 。 


$ scrapy shell http://checkip.dyndns.org 


>>> response.body 


"<html><head><title>Current IP Check</title></head><body>Current 
IP 


Address: XxXX.XXX.XXX.Xxx</body></html>\r\n' 


>>> exit( ) 


想 要 开始 代理 请 求 ， 需 要 退出 shell， 并 使 用 export 命令 设置 新 
的 代理 。 可 以 通过 搜索 HMA 的 公开 代理 列表 测试 免费 代理 
(http://proxylist. hidemyass.com) 。 比 如 ， 我们 从 该 列 
表 中 选择 了 一 个 了 为 10.10.1.1、 端 口 为 80 的 代理 〈 非 真实 存在 的 代 
理 ， 请 将 其 替换 为 你 自己 的 代理 地 址 ) ， 可 以 按照 如 下 操作 。 


$ # First check if you already use a proxy 


$ env | grep http_proxy 


$ # We should have nothing. Now let's set a proxy 


$ export http_proxy=http://10.10.1.1:80 


pO 


按照 刚才 的 步骤 重新 运行 scrapy shell， 可 以 看 到 执行 的 请 求 使 用 
了 不 同 的 也 。 此 外 ， 你 还 会 发 现 这 些 代理 通常 速度 都 很 慢 ， 而 且 在 一 
些 情况 下 无 法 成 功 ， 如 果 遇 到 这 类 情况 ， 可 以 尝试 更 换 为 其 他 的 代 
理 。 如 果 想 要 禁用 代理 ， 则 需要 退出 Scrapy shell， 并 执行 unset 
http_proxy (或 恢复 为 之 前 的 值 ) 。 


Crawlera 是 Scrapinghub 的 一 项 服务 ， 可 以 为 Scrapy 的 开发 者 提供 一 
个 非常 智能 的 代理 。 除 了 在 后 台 使 用 很 大 的 卫 池 路 由 你 的 请 求 外 ， 该 
代理 还 会 调整 延迟 和 失败 重 试 ， 让 你 在 保持 尽 可 能 快 的 情况 下 ， 获 得 
尽 可 能 多 且 稳 定 的 成 功 啊 应 流 。 它 基本 上 可 以 使 个 虫 开 发 者 的 梦想 成 
真 ， 并 且 只 需 像 之 前 那样 ， 设 置 http_proxy 环境 变量 ， 就 可 以 使 
用 o 


$ export http_proxy=myusername:mypassword@proxy.crawlera.com:8010 


除了 HTTP 代 理 外 ，Crawlera 还 可 以 通过 Scrapy 的 中 间 件 组 件 方式 
使 用 。 


7.3 JERE 


现在 ， 我 们 要 探讨 一 些 Scrapy 中 不 太 常 见 的 方面 ， 以 及 Scrapy 扩 
展 的 相关 设置 ， 后 续 章 和 中 会 详细 介绍 这 些 内 容 。 这 些 进 阶 设 置 如 图 


7.2 所 示 。 


BOT_NAME ~ 
NEWSPIDER_MODULE -| 
SPIDER_MODULES ~ 
TEMPLATES_DIR -| 
DEFAULT_ITEM_CLASS -| 
EDITOR ~ 
SCRAPY_SETTINGS_MODULE 
SCRAPY_PROJECT 3 
MAIL_FROM ~ 
MAIL_HOST 
MAIL_PORT 
MAIL_USER - J 
MAIL_PASS 
MAIL LS 邮件 
MAIL_SSL ~ 


Environment variables q 


ITEM_PIPELINES — 
SPIDER_MIDDLEWARES ~ 
SPIDER_CONTRACTS ~ 
EXTENSIONS -| 
FEED_EXPORTERS 
FEED_STORAGES 
DOWNLOAD_HANDLERS -~ 
DOWNLOADER_MIDDLEWARES - 
COMMANDS_MODULE 
EXTENSIONS_BASE ~ 
ITEM_PIPELINES_BASE ~ 
DOWNLOADER_MIDDLEWARES_BASE ~ 
DOWNLOAD_HANDLERS_BASE 
SPIDER_MIDDLEWARES_BASE -~ 
SPIDER_CONTRACTS_BASE - 
FEED_EXPORTERS_BASE 
DOWNLOADER 
SCHEDULER 
STATS_CLASS 
ITEM_PROCESSOR 
LOG_FORMATTER -4> Classes 
DUPEFILTER_CLASS 
SPIDER_LOADER_CLASS 
DOWNLOADER_HTTPCLIENTFACTORY - 
DOWNLOADER_CLIENTCONTEXTFACTORY 


> Base Classes -| 


7.3.1 项 目 相 关 设 置 


扩展 


图 7.2 ”Scrapy 进 阶 设置 


~ RETRY_ENABLED 
RETRY_TIMES 
|. RETRY_HTTP_CODES 
|- RETRY_PRIORITY_ADJUST 
|. REDIRECT_ENABLED 
|- REDIRECT_MAX_TIMES 
REDIRECT_MAX_METAREFRESH_DELAY 
© 4 REDIRECT_PRIORITY_ADJUST 
|~ METAREFRESH_ENABLED 
下 载 j- METAREFRESH_MAXDELAY 
|- HTTPERROR_ALLOWED_CODES 
$- URLLENGTH_LIMIT 
j- COMPRESSION_ENABLED 
- AJAXCRAWL_ENABLED 


AUTOTHROTTLE_ENABLED 
© |- AUTOTHROTTLE_START_DELAY 
| AUTOTHROTTLE_MAX_DELAY 
自动 限 速 AUTOTHROTTLE_DEBUG 


MEMUSAGE_ENABLED 
MEMUSAGE_REPORT 
MEMUSAGE_WARNING_MB 
=|. MEMUSAGE_LIMIT_MB 
MEMUSAGE_NOTIFY_MAIL 
内 存 使 用 MEMDEBUG_ENABLED 
MEMDEBUG_NOTIFY 


LOG_ENCODING 
L LOG_DATEFORMAT 
日 志 LOG_FORMAT 


Mee AQ DUPEFILTER_DEBUG 
~ COOKIES_DEBUG 


调试 


在 这 里 可 以 找到 一 些 与 具体 项 目 相关 的 管理 设置 ， 如 BOT_NAME 
` SPIDER_MODULES 等 。 你 可 以 快速 浏览 一 下 这 些 设置 的 文档 ， 
为 它们 会 提升 具体 用 例 的 生产 效率 ， 不 过 通常 情况 下 ，Scrapy 的 
startproject 和 genspider 命令 都 已 经 提供 了 合理 的 默认 值 ， 即 


使 不 显 式 修改 它们 ， 也 能 很 好 地 运行 。 邮 件 相关 的 设置 ， 比 如 
MAIL_FROM ， 可 以 让 你 配置 MailSender 类 ， 该 类 目前 用 于 统计 邮 
件 信 息 (另外 参见 STATSMAILER_RCPTS ) 以 及 内 存 使 用 信息 (另外 
参见 MEMUSAGE_NOTIFY_MAIL ) 。 还 有 两 个 环境 变量 : 
SCRAPY_SETTINGS_MODULE 以 及 SCRAPY_PROJECT ， 可 以 让 你 调 
整 Scrapy 项 目 与 其 他 项 目 集 成 的 方式 ， 比 如 Django 项 目 。 

scrapy .cfg 还 允许 你 调整 设置 模块 的 名 称 。 


7.3.2 ”Scrapy 扩 展 设置 


这 些 设置 能 够 让 你 扩展 并 修改 Scrapy 的 几乎 所 有 方面 。 这 些 设置 
中 最 重要 的 当 属 ITEM_PIPELINES 。 它 可 以 让 你 在 项 目 中 使 用 Item 处 
理 管道 。 第 9 革 会 看 到 更 多 的 例子 。 除 了 管道 之 外 ， 还 可 以 通过 不 同 的 
方式 扩展 Scrapy， 其 中 一 些 将 会 在 第 8 章 中 进行 总 结 。 
COMMANDS_MODULE 人 允许 我 们 添加 常用 命令 。 比 如 ， 可 以 在 
properties/hi.py 文件 中 添加 如 下 内 容 。 


from scrapy.commands import ScrapyCommand 
class Command(ScrapyCommand) : 
default_settings = {'LOG_ENABLED': False} 


def run(self, args, opts): 
print("hello") 


“7Esettings. py 文件 中 添加 
COMMANDS_MODULE='properties.hi' 时 ， 就 激活 了 这 个 小 命 
令 ， 我 们 可 以 在 Scrapy 帮 助 中 看 到 它 ， 并 且 通 过 scrapy hi 运行 。 在 
命令 的 default_settings 中 定义 的 设置 ， 会 被 合并 到 项 目的 设置 


ch BREUER ORF settings. py 文件 或 命令 
行 中 设 定 的 设置 。 


Scrapy 使 用 -_BASE 字典 (比如 FEED_EXPORTERS_BASE ) 存储 
不 同 框架 扩展 的 默认 值 ， 并 允许 我 们 在 settings .py 文件 或 命令 行 
中 ， 通 过 设置 它们 的 非 -_BASE 版 本 (比如 FEED_EXPORTERS ) 进行 
HEN ° 


最 后 ，Scrapy 使 用 DOWNLOADER ` SCHEDULER 等 设置 ， 保 存 系 
统 基本 组 件 的 包 / 类 名 。 我 们 可 以 继承 默认 的 下 载 硕 
(scrapy.core.downloader.Downloader ) ， 重 载 一 些 方法 ， 
然后 将 DOWNLOADER 设置 为 自 定义 的 类 。 这 样 可 以 让 开发 者 大 胆 地 对 
新 特性 进行 实验 ， 并 且 可 以 人 简化 目 动 化 测试 过 程 ， 不 过 除非 你 明确 了 
解 目 己 做 的 事情 ， 否 则 不 要 轻易 修改 这 些 设置 。 


7.3.3 下载 调 优 


RETRY_* ` REDIRECT_* 以 及 METAREFRESH_* 设置 分 别 用 于 
配置 重 试 、 重 定 疝 以 及 元 刷新 中 间 件 。 例 如 ， 将 
REDIRECT_PRIORITY_ADJUST 设 为 2， 意 味 着 每 次 发 生 重 定向 时 ， 
新 请 求 将 会 在 所 有 非 重 定向 请 求 完成 服务 后 才 会 被 调度 ; 而 将 
REDIRECT_MAX_TIMES 设置 为 20， 则 表示 在 执行 20 次 重 定向 后 ， 下 
载 右 将 会 放弃 尝试 ， 并 返回 目前 所 见 到 的 内 容 。 这 些 设置 在 仆 取 一 些 
运行 不 太 正 常 的 网 站 时 非常 有 用 ， 不 过 在 大 多 数 情 况 下 ， 默 认 值 已 经 
可 以 提供 很 好 的 服务 了 。 它 同样 也 适用 于 
HTTPERROR_ALLOWED_CODES 以 及 URLLENGTH_LIMIT 。 


73.4 ”自动 限 速 扩展 设置 


AUTOTHROTTLE_* 设置 用 于 局 用 并 配置 自动 限 速 扩展 。 虽 然 对 
它 有 很 大 期 望 ， 但 从 实践 来 看 ， 我 发 现 它 往往 有 些 保守 ， 不 容易 调 
整 。 它 使 用 下 载 延 迟 ， 来 了 解 我 们 和 目标 服务 器 的 负载 情况 ， 并 据 此 
调整 下 载 怖 的 延迟 。 如 有 果 你 很 难 找到 DOWNLOAD_DELAY 的 最 佳 值 

(默认 为 0) ， 就 会 发 现 该 模块 很 有 用 。 


7.3.5 “内存 使 用 扩展 设置 


MEMUSAGE_* 设置 用 于 启用 并 配置 内 存 使 用 扩展 。 当 超出 内 存 限 
制 时 ， 将 会 关闭 朴 虫 。 当 运行 在 共享 环境 时 ， 该 设置 非常 有 用 ， 因 为 
此 时 需要 非常 礼貌 的 行为 。 大 多 数 情 况 下 ， 你 可 能 会 发 现世 只 有 在 接 
收报 警 邮 件 时 才 会 有 用 ， 此 时 我 们 需要 将 MEMUSAGE_LIMIT_MB 设置 
为 0， 禁 用 关闭 爬虫 的 功能 。 该 扩展 只 在 类 UNIX 平 台 上 适用 。 


MEMDEBUG_ENABLED 和 MEMDEBUG_NOTIFY 用 于 启用 并 配置 内 
存 调试 扩展 ， 在 怜 虫 关闭 时 打印 出 仍然 存活 的 引用 数量 。 总 之 ， 追 踩 
内 存 泄 露 不 是 一 件 简单 而 有 趣 的 事情 (好 吧 ， 它 还 是 有 一 些 乐趣 
的 ) 。 我 们 可 以 阅读 Debugging memory leaks with trackref 这 篇 优秀 的 
文档 ， 了 解 更 多 内 存 泄露 排查 的 方法 ， 不 过 最 重要 的 建议 是 ， 保 持 你 
的 息 忠 相对 简短 、 批 量 处 理 ， 并 且 需 要 根据 服务 器 的 能 力 运行 。 我 认 
为 没有 什么 好 的 理由 可 以 让 我 们 批量 运行 超过 几 千 页 或 几 分 钟 。 


7.3.6 日 志和 调试 


最 后 ， 还 有 一 些 日 志和 调试 功能 。LOG_ENCODING ` 
LOG_DATEFORMAT 和 LOG_FORMAT 可 以 用 来 调整 日 志 格 式 ， 当 准备 
使 用 日 志 管 理解 决 方案 时 (比如 Splunk、Logstash 和 Kibana) ， 会 发 现 
这 些 设置 非常 有 用 。DUPEFILTER_DEBUG 和 COOKIES。 DEBUG 将 会 
帮助 你 调试 相对 复杂 的 情况 ， 比 如 得 到 的 请 求 数 少 于 预期 或 会 话 意外 
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7.4 ”本 章 小 结 


通过 阅读 本 章 ， 我 相信 和 与 从 头 开始 编写 爬虫 相 比 ， 你 能 体会 到 使 
用 Scrapy 功 能 所 市 来 的 深度 和 广度 。 如 果 你 想 调 整 或 扩展 Scrapy 的 功 
能 ， 可 以 有 很 多 选项 ， 我 们 将 会 在 下 一 章 中 看 到 它们 。 


第 8 章 ”Scrapy 编 程 


到 目前 为 上 上 ， 我 们 编写 的 爬虫 主要 用 于 定义 讨 取 数据 产 的 方式 以 
及 如 何 从 中 抽取 信息 。 除 了 扑 虫 外 ，Scrapy 还 提供 了 能 够 调整 其 大 多 
数 方面 功能 的 机 制 。 比 如 ， 你 可 能 会 发 现 目 己 经 稼 在 处 理 如 下 的 一 些 


问题 。 


1. 你 需要 从 同一 个 项 目的 其 他 息 虫 中 复制 、 烙 贴 大 量 代 码 。 重 复 
的 代码 与 数据 更 加 相关 比如， 执行 字段 计算 ) ， 而 不 是 数据 源 。 


2. 你 需要 编写 脚本 ， 对 Item 进行 后 处 理 ， 执 行 像 删除 重复 条 目 
或 后 置 处 理 值 的 事情 。 


3. 你 在 不 同 的 项 目 中 有 重复 的 代码 ， 用 于 处理 基础 架构 。 比 如 ， 
你 可 能 需要 登录 并 向 专 有 仓库 传输 文件 ， 同 数据 库 中 添加 Item 或 在 
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4. 你 发 现 Scrapy 的 某 个 方面 与 你 希望 的 功能 并 不 完全 一 致 ， 你 想 
在 目 己 的 大 部 分 项 目 中 使 用 目 定 义 或 变通 的 方案 。 


Scrapy 开 发 者 所 设计 的 杂 构 ， 能 够 为 我 们 解决 这 些 利 见 的 问题 。 
我 们 将 会 在 本 革 后 续 部 分 研究 该 染 构 。 不 过 我 们 首先 介绍 文 持 Scrapy 
的 引擎 ， 该 引擎 叫 作 Twisted ° 


8.1 Scrapy 是 一 个 Twisted 应 用 


Scrapy 是 一 个 内 置 使 用 了 Python 的 Twisted 框 架 的 抓 取 应 用 。 
Twisted 确 实 有 些 与 众 不 同 ， 因 为 它 是 事件 张 动 的 ， 并 且 或 励 我 们 编写 
异步 代码 。 习 惯 它 需 要 一 些 时 间 ， 不 过 我 们 将 通过 只 学 习 和 Scrapy 有 
天 的 部 分 ， 从 而 让 任务 变 得 相对 简单 一 些 。 我 们 还 可 以 在 错误 处 理 方 
面 轻松 一 些 。GitHub 上 的 完整 代码 会 有 更 加 彻 确 的 错误 处 理 ， 不 过 在 
本 书 中 将 忽略 该 部 分 。 


让 我 们 从 头 开始 。Twisted 与 众 不 同 是 因为 它 的 主要 口号 。 


代码 阻塞 的 影响 很 广 重 ， 而 可 能 造成 代码 阻塞 的 原因 包括 : 


。 代码 需要 访问 文件 、 数 据 库 或 网 络 ; 
。 代码 需 要 派生 新 进程 并 消费 其 输出 ， 比 如 运行 shell 命 令 ; 
。 代码 需要 执行 系统 级 操作 ， 比 如 等 竺 系统 队列 。 


Twisted 提 供 的 方法 允许 我 们 执行 上 述 所 有 操作 甚至 更 多 操作 时 ， 
无 需 再 阻塞 代码 执行 。 


为 了 展示 两 种 方式 的 不 同 ， 我 们 假设 有 一 个 典型 的 同步 抓 取 应 用 
( 见 图 8.1) 。 假 设 该 应 用 包含 4 个 线程 ， 并 且 在 一 个 给 定 的 时 刻 ， 其 
中 3 个 线程 处 于 阻塞 状态 ， 用 于 等 待 啊 应 ， 而 兄 一 个 线程 被 阻塞， 用 
于 执行 数据 库 写 访问 以 保存 ITtem。 在 任何 给 定时 刻 ， 很 有 可 能 无 法 


找到 抓 取 应 用 的 一 个 执行 其 他 事情 的 线程 ， 只 能 等 竺 一 些 阻塞 操作 完 
成 。 当 阻塞 操作 完成 时 ， 一 些 计 算 操 作 可 能 占用 几 微 秒 ， 然 后 线程 再 
次 被 阻塞 ， 执 行 其 他 阻塞 操作 ， 这 很 可 能 持续 至 少 几 翅 秒 的 时 间 。 总 
体 来 说 ， 服 务 需 不 会 是 空 朋 的 ， 因 为 它 运 行 了 几 十 个 应 用 程序 ， 并 使 
用 了 上 和 于 个 线程 ， 因 此 ， 在 一 些 细致 的 调 优 后 ，CPU 才 能 够 合理 利 
用 。 


多 线程 (4 线程 ) : 
一 线程 1: 在 Web 请 求 #330 上 被 阻塞 
一 线程 2: 在 数据 库 访问 #70 上 被 阻塞 
Fa 线程 3: 在 Web 请 求 #330 上 被 阻塞 
一 


一 线程 4: 在 Web 请 求 妇 12 上 被 阻塞 
一 一 一 一 一 一 
Twisted (1 线程 ) : 


一 线程 1: MR, BENRA 
一 一 一 一 一 


三 ，.… 1000 more... 


图 8.1 多 线程 代码 和 Twisted 异 步 代 码 的 对 比 


Twisted/Scrapy 的 方式 更 倾 问 于 尽 可 能 使 用 单线 程 。 它 使 用 现代 操 
作 系 统 的 MO 复 用 功能 (参见 select()、poll() flepoll()) 作 
为 “ 挂 起 妖 *。 在 通常 会 有 阻塞 操作 的 地 方 ， 比 如 result = 
i_block() ，Twisted 提 供 了 一 个 可 以 立即 返回 的 替代 实现 。 不 过 ， 


它 并 不 是 返回 真实 值 ， 而 是 返回 一 个 hook， 比 如 deferred = 
i_dont_block() ， 在 这 里 可 以 挂 起 任何 想 要 运行 的 功能 ， 而 不 用 
管 什么 时 候 返 回 值 可 用 (比如 ， 
deferred.addCallback(process_result) ) 。 一 个 Twisted 心 
用 是 由 一 组 此 类 延迟 运行 的 操作 组 成 的 。Twisted 唯 一 的 主线 程 被 称 为 
Twisted 事 件 反 应 需 线 程 ， 用 于 监控 挂 起 器 ， 等 待 某 个 资源 变 为 可 用 
比如， 服务 器 返回 响应 到 我 们 的 Reduest 中 ) 。 当 该 事件 发 生 时 ， 
将 会 触发 链 中 最 前 面 的 延迟 操作 ， 执 行 一 些 计算 ， 然 后 依次 触发 下 面 
的 操作 。 部 分 延迟 操作 可 能 会 引发 进一步 的 IO 操作 ， 这 样 丈 会 造成 延 
述 操作 链 回 到 挂 起 器 中 ， 如 果 可 能 的 话 ， 还 会 释放 CPU 以 执行 其 他 功 
能 。 由 于 我 们 使 用 的 是 单线 程 ， 因 此 不 会 存在 额外 线程 所 需 的 上 下 文 
切换 以 及 保存 资源 (如 内 存 ) 所 融 来 的 开销 。 也 就 是 说 ， 我 们 使 用 该 
韭 阻 塞 架构 时 ， 只 需 一 个 线程 ， 就 能 达到 类 似 使 用 数 千 个 线程 才能 达 
到 的 性 能 。 


坦率 地 说 ， 操 作 系 统 开发 人 员 花 费 了 数 十 年 的 时 间 优 化 线程 操 
作 ， 以 使 它们 速度 更 快 。 性 能 的 争论 没有 以 前 那么 强烈 了 。 有 一 件 大 
家 都 认同 的 事情 是 ， 为 复杂 应 用 编写 正确 的 线程 安全 代码 非常 困难 。 
当 你 克服 考虑 延迟 /回调 所 带 来 的 最 初 冲 击 后 ， 会 发 现 Twisted 代 码 要 比 
多 线程 代码 简单 得 多 。inlinecCcallbacks 生成 器 工具 使 得 代码 更 加 
简单 ， 我 们 将 会 在 后 续 章 节 进 一 步 讨论 它 。 


Zi 


可 以 说 ， 到 目前 为 止 ， 最 成 功 的 非 阻塞 UO 系 统 是 Node.js， 主 要 是 因 
为 它 以 高 性 能 和 并 发 性 作为 出 发 点 ， 没 有 人 去 争论 这 是 好 事 还 是 坏事 。 每 
个 Node.js 应 用 都 只 用 非 阻塞 API。 在 Java 的 世界 里 ，Netty 可 能 是 最 成 功 的 
NIO 框 架 驱 动 应 用 ， 比 如 Apache Storm 和 Spark。C++ 11 的 std: :future 
和 std: :promise (与 延迟 操作 非常 类 似 ) 通过 使 用 libevent 或 纯 POSIX 
这 些 库 ， 使 得 编写 异步 代码 更 加 简单 。 


十， 


8.1.1 延迟 和 延迟 链 

延迟 机 制 是 Twisted 提 供 的 最 基础 的 机 制 ， 能 够 帮助 我 们 编写 异步 
代码 。Twisted API 使 用 延迟 机 制 ， 允 许 我 们 定义 发 生 某 些 事件 时 所 采 
取 的 动作 序列 。 下 面 让 我 们 具体 看 一 下 。 


F 书 的 全 部 源 代码 。 如 果 想 要 下 载 本 书 代码 ， 


你 可 以 从 GitHub 上 获取 
可 以 使 用 git clone https://github.com/ 


scalingexcellence/scrapybook 。 


录 中 ， 其 中 本 示例 的 代码 在 
./deferreds.py 0 运行 该 f 


本 章 的 完整 代码 在 chg8 E 
chg8/deferreds .py 文件 中 ， 你 可 以 使 用 
代码 。 


可 以 使 用 Python 控制 全 运行 如 下 的 交互 式 实验 。 


$ python 


>>> from twisted.internet import defer 


>>> # Experiment 1 


>>> d = defer.Deferred() 


>>> d.called 


False 


>>> d.callback(3) 


>>> d.called 


True 


>>> d.result 


可 以 看 到 ，Deferred 本 质 上 代表 的 是 一 个 无 法 立即 获取 的 值 。 
当 触 发 d 时 (调用 其 callback 方法 ) ， 其 called 状态 变 为 True , 


而 result 属性 被 设置 为 在 回调 方法 中 设 定 的 值 。 


>>> # Experiment 2 


>>> d = defer.Deferred() 


>>> def foo(v): 


print "foo called" 


return v+1 


>>> d.addCallback(foo) 


<Deferred at Ox7f...> 


>>> d.called 


False 


>>> d.callback(3) 


foo called 


>>> d.called 


True 


>>> d.result 


延迟 机 制 最 强大 的 功能 就 是 可 以 在 设 定 值 时 串联 其 他 要 被 调用 的 
操作 。 在 上 面 的 例子 中 ， 添 加 了 一 个 foo( ) HELE Ad 的 回调 函数 。 
当 通 过 调用 callback(3) 触发 d 时 ， 会 调用 函数 foo( ) ， 打 印 消 
E, FPR SOR EMA Ad 最 终 的 result 值 。 


>>> # Experiment 3 


>>> def status(*ds): 


return [(getattr(d, 'result', "N/A"), len(d.callbacks)) for 


>>> def b_callback(arg): 


print "b_callback called with arg =", arg 


return b 


>>> def on_done(arg): 


print "on_done called with arg =", arg 


return arg 


>>> # Experiment 3.a 


>>> a 


defer .Deferred() 


>>> b 


defer .Deferred() 


>>> a.addCallback(b_callback) .addCallback(on_done) 


>>> status(a, b) 


[('N/A', 2), ('N/A', 0)] 


>>> a.callback(3) 


b_ callback called with arg = 3 


>>> status(a, b) 


[(<Deferred at 0x10e7209e0>, 1), ('N/A', 1)] 


>>> b.callback(4) 


on_done called with arg = 4 


>>> status(a, b) 


[(4, ©), (None, 0)] 


该 示例 展示 了 更 加 复杂 的 延迟 行为 。 我 们 看 到 该 示例 中 有 一 个 普 
通 的 延迟 a ， 和 之 前 例子 中 创建 的 一 样 ， 不 过 这 次 它 有 两 个 回调 方 


法 。 第 一 个 是 p_callback( ) ， 返 回 值 是 另 一 个 延迟 b ， 而 不 是 一 个 
值 。 第 二 个 是 on_done() 打印 函数 。 我 们 还 有 一 个 status( ) K 
数 ， 用 于 打印 延迟 状态 。 在 两 个 延迟 完成 初始 化 之 后 ， 得 到 了 相同 的 
状态 : [('N/A', 2), ('N/A', 0)] ， 这 意味 着 两 个 延迟 都 还 没 
有 被 触发 ， 并 且 第 一 个 延迟 有 两 个 回调 ， 而 第 二 个 没有 回调 。 然 后 ， 
当 触 发 第 一 个 延迟 时 ， 我 们 得 到 了 一 个 奇怪 的 [(<Deferred at 
0x10e7209e0>, 1), ('NZA', 1)] 状态 ， 可 以 看 出 现在 a 的 值 是 
一 个 延迟 (实际 上 就 是 b WIR) ， 并 且 目 前 它 还 有 一 个 回调 ， 这 种 情 


况 是 合理 的 ， 因 为 p_callback( ) 已 经 被 调用 ， 只 剩 下 了 
on_done()。 意 外 的 情况 是 现在 b 也 包含 了 一 个 回调 。 实 际 上 是 在 后 
台 注 册 了 一 个 回调 ， 一 旦 触发 b ， 就 会 更 新 它 的 值 。 当 其 发 生 时 ， 
on_done() 依然 会 被 调用 ， 并 且 最 终 状 态 会 是 [(4，0)，(None， 
9)] ， 和 我 们 预期 的 一 样 。 


>>> # Experiment 3.b 


>>> a = defer.Deferred() 


>>> b = defer.Deferred() 


>>> a.addCallback(b_callback) .addCallback(on_done) 


>>> status(a, b) 


[('N/A', 2), ('N/A', 0)] 


>>> b.callback(4) 


>>> status(a, b) 


[('N/A', 2), (4, ®)] 


>>> a.callback(3) 


b_callback called with arg = 3 


on_done called with arg = 4 


>>> status(a, b) 


[(4, ©), (None, 0)] 


而 另 一 方面 ， 如 果 像 Experiment3 .b Prax, b 先 于 a 被 触发 ， 状 态 
将 会 变 为 [('N/A'，2)，(4，0)] ， 然 后 当 a 被 触发 时 ， 两 个 回调 
都 会 被 调用 ， 最 终 状 态 与 之 前 一 样 。 有 意思 的 是 ， 不 管 顺序 如 何 ， 莽 
终结 果 都 是 相同 的 。 两 个 例子 唯一 的 不 同 是 ， 在 第 一 个 例子 中 ,，b 值 
保持 延迟 的 时 间 更 长 一 些 ， 因 为 它 是 第 二 个 被 触发 的 ， 而 在 第 二 个 例 
子 中 ，b 首先 被 触发 ， 并 且 从 该 时 刻 起 ， 它 的 值 就 会 在 需要 时 被 立即 
使 用 。 


此 时 ， 你 应 该 已 经 对 什么 是 延迟 、 它 们 是 如 何 串 联 起 来 表示 尚 不 
可 用 的 值 ， 有 了 不 错 的 理解 。 我 们 将 通过 第 4 个 例子 结束 这 一 部 分 的 研 
究 ， 在 该 示例 中 ， 将 展示 如 何 触发 依赖 于 多 个 其 他 延迟 的 方法 。 在 
Twisted 的 实现 中 ， 将 会 使 用 defer .DeferredList 类 。 


>>> # Experiment 4 


>>> deferreds = [defer.Deferred() for i in xrange(5) ] 


>>> join = defer.DeferredList(deferreds) 


>>> join.addCallback(on_done) 


>>> for i in xrange(4): 


deferreds[i].callback(i) 


>>> deferreds[4] .callback(4) 


on_done called with arg = [(True, 0), (True, 1), (True, 2), 


(True, 3), (True, 4)] 


可 以 注意 到 ， 尽 管 for 循环 语句 只 触发 了 5 个 延迟 中 的 4 个 ， 
on_done( ) 仍然 需要 等 到 列表 中 所 有 延迟 都 被 触发 后 才 会 调用 ， 也 
就 是 说 ， 要 在 最 后 的 deferreds[4] . nema 


on_done() 的 参数 是 一 个 元 组 组 成 的 列表 ， 每 个 元 组 对 应 一 个 延 
迟 ， 其 中 包含 两 个 元 素 ， 分 别 是 表示 成 功 的 True 或 表示 失败 的 
False ， 以 及 延迟 的 值 。 


8.1.2 ”理解 Twisted 和 非 阻 塞 IO 一 一 一 个 Python 故事 


既然 我 们 已 经 掌握 了 原 语 ， 接 下 来 让 我 告诉 你 一 个 Python 的 小 故 
事 。 该 故事 中 所 有 人 物 均 为 虚构 ， 如 有 雷同 纯 属 巧合 。 


# ~*~ Twisted - A Python tale ~*~ 


from time import sleep 


# Hello, I'm a developer and I mainly setup Wordpress. 
def install_wordpress(customer ): 

# Our hosting company Threads Ltd. is bad. I start installation 
and... 

print "Start installation for", customer 

# ...then wait till the installation finishes successfully. It 
is 

# boring and I'm spending most of my time waiting while 
consuming 

# resources (memory and some CPU cycles). It's because the 


process 
# is *blocking*. 
sleep(3) 
print "All done for", customer 


# I do this all day long for our customers 
def developer_day(customers): 
for customer in customers: 
install_wordpress(customer ) 


developer_day(["Bill", "Elon", "Steve", "Mark"]) 


运行 该 代码 。 


$ ./deferreds.py 1 

Running example 1 
Start installation for Bill 
All done for Bill 
Start installation 


* Elapsed time: 12.03 seconds 


我 们 得 到 的 是 顺序 的 执行 。4 位 客户 ， 每 人 执行 3 秒 ， 意 味 痢 总 共 
需要 12 秒 的 时 间 。 这 种 方式 的 扩展 性 不 是 很 好 ， 因 此 我 们 将 在 第 二 个 
例子 中 添加 多 线程 。 


import threading 


# The company grew. We now have many customers and I can't handle 
the 
# workload. We are now 5 developers doing exactly the same thing. 
def developers_day(customers): 

# But we now have to synchronize... a.k.a. bureaucracy 

lock = threading.Lock() 


# 
def dev_day(id): 
print "Goodmorning from developer", id 
# Yuck - I hate locks... 
lock.acquire() 
while customers: 
customer = customers.pop(0) 
lock.release() 


# My Python is less readable 
install_wordpress(customer ) 
lock.acquire() 
lock. release() 
print "Bye from developer", id 
# We go to work in the morning 
devs = [threading.Thread(target=dev_day, args=(i,)) for i in 
range(5) ] 
[dev.start() for dev in devs] 
# We leave for the evening 
[dev.join() for dev in devs] 


# We now get more done in the same time but our dev process got 
more 

# complex. AS we grew we spend more time managing queues than 
doing dev 

# work. We even had occasional deadlocks when processes got 
extremely 

# complex. The fact is that we are still mostly pressing buttons 
and 

# waiting but now we also spend some time in meetings. 
developers_day(["Customer %d" % i for i in xrange(15)]) 


按照 下 述 方式 运行 这 段 代 码 。 


$ ./deferreds.py 2 


Goodmorning from developer OGoodmorning from developer 


1Start installation forGoodmorning from developer 2 


Goodmorning from developer 3Customer 0 


from developerCustomer 13 3Bye from developer 2 


* Elapsed time: 9.02 seconds 


在 这 段 代码 中 ， 使 用 了 5 个 线程 并 行 执行 。15 个 客户 ， 每 人 3 秘 ， 
总 共 需 要 执行 45 秒 ， 而 当 使 用 5 个 并 行 的 线程 时 ， 最 终 只 人 花费 了 9 秒 
钟 。 不 过 代码 有 些 难看 。 现 在 代码 的 一 部 分 只 用 于 管理 并 发 性 ， 而 不 
苹 专 注 于 算法 或 业务 逻辑 。 男 外 ， 输 出 也 变 得 混乱 并 且 可 读 性 很 差 。 
即使 定 让 很 商 单 的 多 线程 代码 正确 运行 ， 也 有 很 大 难度 ， 因 此 我 们 将 
转 为 使 用 Twisted ° 


# For years we thought this was all there was... We kept hiring 
more 


# developers, more managers and buying servers. We were trying 
harder 

# optimising processes and fire-fighting while getting mediocre 
# performance in return. Till luckily one day our hosting 

# company decided to increase their fees and we decided to 

# switch to Twisted Ltd.! 

from twisted.internet import reactor 

from twisted.internet import defer 

from twisted.internet import task 


# Twisted has a slightly different approach 
def schedule_install(customer ) : 
# They are calling us back when a Wordpress installation 
completes. 
# They connected the caller recognition system with our CRM and 
# we know exactly what a call is about and what has to be done 
# next. 
# 
# We now design processes of what has to happen on certain 
events. 
def schedule_install_wordpress(): 
def on_done(): 
print "Callback: Finished installation for", customer 
print "Scheduling: Installation for", customer 
return task.deferLater(reactor, 3, on_done) 
# 
def all_done(_): 
print "All done for", customer 


# 
# For each customer, we schedule these processes on the CRM 
# and that 

# is all our chief-Twisted developer has to do 

d = schedule_install_wordpress() 

d.addCallback(all_done) 

# 

r 


eturn d 


# Yes, we don't need many developers anymore or any 
synchronization. 
# ~~ Super-powered Twisted developer ~~ 
def twisted developer_day(customers): 
print "Goodmorning from Twisted developer" 
# 
# Here's what has to be done today 
work = [schedule_install(customer) for customer in customers] 
# Turn off the lights when done 
join = defer.DeferredList (work) 
join.addCallback(lambda _: reactor.stop()) 
# 
print "Bye from Twisted developer!" 
# Even his day is particularly short! 
twisted_developer_day(["Customer %d" % i for i in xrange(15)]) 


# Reactor, our secretary uses the CRM and follows-up on events! 
reactor.run() 


现在 运行 该 代码 。 


$ ./deferreds.py 3 


Goodmorning from Twisted developer 


Scheduling: Installation for Customer 0 


Scheduling: Installation for Customer 14 


Bye from Twisted developer! 


Callback: Finished installation for Customer 0 


All done for Customer 0 


Callback: Finished installation for Customer 1 


All done for Customer 1 


All done for Customer 14 


* Elapsed time: 3.18 seconds 


此 时 ， 我 们 在 没有 使 用 多 线程 的 情况 下 ， 就 获得 了 良好 运行 的 代 
码 ， 以 及 漂 腕 的 输出 结果 。 我 们 并 行 处 理 了 所 有 的 15 位 客户 ， 也 就 是 
说 ， 应 当 执 行 45 秒 的 计算 只 花费 了 3 秒 钟 ! 技巧 就 是 将 所 有 阻塞 调用 的 
sleep() 蔡 换 为 Twisted 对 应 的 task.deferLater() LARVAE 


数 。 由 于 处 理 现在 发 生 在 其 他 地 方 ， 因 此 可 以 台 不 费力 地 同时 为 15 位 
客户 服务 。 


刚才 提 到 前 面 的 处 理 此 时 是 在 其 他 地 方 执行 的 。 这 是 在 作 浆 吗 ? 答 
当然 不 是 。 算 法 计算 仍然 在 CPU 中 处 理 ， 不 过 与 磁盘 和 网 络 操作 相 wo 
CPU 操作 速度 很 块 。 因 此 ， 将 数据 传 给 CPU、 从 一 个 CPU 发 送 或 存储 数据 
到 另 一 个 CPU 中 ， 占 据 了 大 部 分 时 间 。 我 们 使 用 非 阻 塞 的 MO 操 作 ， 为 CPU | 
节省 了 这 些 时 间 。 这 些 操作 ， 尤 其 是 像 task .deferLater( ) 这 样 的 操 
作 ， 会 在 数据 传输 完成 后 触发 回调 函数 。 


另 一 个 需要 非常 注意 的 地 方 是 Goodmorning from Twisted 
developer 以 及 Bye from Twisted developer! 消息 。 在 代码 
启动 时 ， 它 们 就 都 被 立即 打印 了 出 来 。 如 果 代 码 过 早 地 到 达 该 点 ， 那 
么 应 用 实际 是 什么 时 候 运 行 的 呢 ? 管 案 是 Twisted 应 用 (包括 Scrapy) 
完全 运行 在 reactor .run() E! 当 调 用 该 方法 时 ， 必 须 拥 有 应 用 程 
序 预 期 使 用 的 所 有 可 能 的 延迟 链 《相当 于 前 面 故事 中 建立 CRM 系 统 的 
步骤 和 流程 ) 。 你 的 reactor .run() (故事 中 的 秘书 ) 执行 事件 监 
控 以 及 触发 回调 。 


reactor 的 主要 规则 


日 塞 操 作 束 可 以 做 任何 事 。 


am 
So 
并 

fi 
oF 
ba 
reas 
UL 
也 


非 第 好 ! 不 过 虽然 代码 没有 了 多 线程 时 的 混乱 输出 ， 但 是 这 里 的 
回调 函数 还 古 有 一 些 难看 ! 因此 ， 我 们 将 引入 下 一 个 例子 。 


# Twisted gave us utilities that make our code way more readable! 
@defer.inlineCallbacks 
def inline_install(customer): 

print "Scheduling: Installation for", customer 

yield task.deferLater(reactor, 3, lambda: None) 

print "Callback: Finished installation for", customer 


print "All done for", customer 


def twisted _developer_day(customers): 
. same as previously but using inline_install() 
instead of schedule_install() 


twisted_developer_day(["Customer %d" % i for i in xrange(15)]) 
reactor.run() 


以 如 下 方式 运行 该 代码 。 


$ ./deferreds.py 4 


. exactly the same as before 


上 述 代 码 和 之 前 那个 版 本 的 代码 看 起 来 基本 一 样 ， 不 过 更 加 优 
雅 。inlinecallbacks 生成 需 使 用 了 一 些 Python 机 制 让 
inline_install() 的 代码 能 够 暂停 和 恢复 。inline_install() 


变 为 延迟 画 数 ， 并 且 为 每 位 客户 并 行 执行 。 每 当 执行 yield 时 ， 执 行 
会 在 当前 的 ijnline_install( ) 实例 上 暂停 ， 当 yield 的 延迟 画 数 触 
发 时 再 恢复 。 


现在 唯一 的 问题 是 ， 如 采 不 是 只 有 15 个 客户 ， 而 是 10000 个 ， 该 代 
码 会 无 耻 地 同时 启动 10000 个 处 理 序 列 〈 调 用 HTTP 请 求 、 数 据 库 写 操 
作 等 ) 。 这 样 可 能 会 正常 运行 ， 也 可 能 造成 各 种 各 样 的 失败 。 在 大 规 
模 并 发 应 用 中 ， 比 如 Scrapy， 一 般 需 要 将 并 发 量 限 制 到 可 接受 的 水 
平 。 在 本 例 中 ， 可 以 使 用 task.Cooperator() 实现 该 限制 。Scrapy 


使 用 了 同样 的 机 制 在 item 处 理 管道 中 限制 并 发 量 
(CONCURRENT_ITEMS 设置 ) 。 


@defer.inlineCallbacks 
def inline_install(customer): 
same as above 


# The new "problem" is that we have to manage all this concurrency 
to 
# avoid causing problems to others, but this is a nice problem to 
have. 
def twisted _developer_day(customers): 

print "Goodmorning from Twisted developer" 

work = (inline_install(customer) for customer in customers) 

# 

# We use the Cooperator mechanism to make the secretary not 

# service more than 5 customers simultaneously. 

coop = task.Cooperator() 

join = defer.DeferredList([coop.coiterate(work) for i in 


xrange(5)]) 
# 


join.addCallback(lambda _: reactor.stop()) 
print "Bye from Twisted developer!" 


twisted_developer_day(["Customer %d" % i for i in xrange(15)]) 
reactor.run() 


# We are now more lean than ever, our customers happy, our hosting 
# bills ridiculously low and our performance stellar. 


# ~*~ THE END ~*~ 


` 


ji 


了 该 代码 。 


(> 


$ ./deferreds.py 5 


Goodmorning from Twisted developer 


Bye from Twisted developer! 


Scheduling: Installation for Customer 0 


Callback: Finished installation for Customer 4 


All done for Customer 4 


Scheduling: Installation for Customer 5 


Callback: Finished installation for Customer 14 


All done for Customer 14 


* Elapsed time: 9.19 seconds 


LAE, DERMAL STP RARER o CUPRA hE PT 
的 和 客户， 只 有 在 存在 空 槽 时 才 可 以 开始 ， 实 际 上 ， 在 这 个 例子 中 客户 


处 理 的 时 间 总 是 相同 的 〈3 秒 ) ， 因 此 会 造成 5 位 客户 会 在 同一 时 间 被 
批量 处 理 的 情况 。 最 后 ， 我 们 得 到 了 和 多 线程 示例 中 相同 的 性 能 ， 不 
过 现在 只 使 用 了 一 个 线程 ， 代 码 更 加 向 单 并 且 更 容易 正确 编写 。 


祝 贯 你 ， 坦 白地 说 ， 现 在 你 得 到 了 对 于 Twisted 和 非 阳 塞 IO 编程 的 
一 份 非常 严 刘 的 介绍 。 


8.2 Scrapy 架 构 概 述 
图 8.2 所 示 为 Scrapy 的 架构 。 


process_spider_input() process_item() open_spider() 
close_spider() 


Item #718 
Spider(s) 
process_spider_output() 


«x a | \ 
| process_spider_exception() 
Spider" [a] fF | 


外 | |process_start_requests() 


Ik 
T 
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process_request() 


process_response() 扩展 
process_exception() 


图 8.2 ”Scrapy 架 构 


你 可 能 已 经 注意 到 ， 该 染 构 运行 在 我 们 熟悉 的 三 类 对 象 之 上 : 
Request ` Response 以 及 Item。 我 们 的 仆 虫 就 在 架构 的 核心 位 
置 ， 它 们 创建 Request ， 处 理 Response ， 生 成 Ttem 和 更 多 的 


Request 。 


CRA RNS Item 都 使 用 其 process_item( ) 方法 由 Item 管 
道 序列 执行 后 置 处 理 。 通 常情 况 下 ，process_item( ) 会 修改 Item 


， 然 后 以 返回 这 些 Item 的 方式 将 其 传 给 后 续 的 管道 。 有 时 候 〈 比 如 
隐 余 或 非法 数据 的 情况 ) ， 我 们 可 能 需要 放弃 一 个 Ilem， 此 时 可 以 通 
过 抛 出 DropItem 异常 的 方式 实现 。 这 种 情况 下 ， 后 续 的 管道 将 不 会 
再 接收 该 Iem。 如 有 果 我 们 提供 了 open_spider() 和 /或 
close_spider() 方法 ， 那 么 怜 虫 会 对 应 地 在 开始 和 结束 怜 虫 时 调 
用 该 方法 。 这 里 是 我 们 进行 初始 化 和 清理 工作 的 时 机 “。Item 管 道 通常 
用 于 执行 问题 域名 或 基础 结构 的 操作 ， 比 如 清理 数据 、 向 数据 库 插入 
Item 等 。 你 还 会 发 现 自己 会 在 项 目 之 间 很 大 程度 地 复 用 它们 ， 尤 其 
是 当 处 理 基 础 架构 细节 时 。 第 4 章 中 使 用 过 的 Appery.io 管 道 ， 即 通过 少 
量 配 置 上 传 Ttem 到 Appery.io 的 工作 ， 束 是 用 Item 管 道 执行 基础 架构 工 
ERJ =T RF 


我 们 通常 会 从 扑 虫 发 送 Request ， 并 得 到 返回 的 Response ,来 
进行 工作 。Scrapy 以 透明 的 方式 负责 Cookie、 权 限 认证 、 绥 存 等 ， 我 
们 所 需要 做 的 就 是 偶尔 调整 一 些 设置 。 这 其 中 大 部 分 功能 是 在 下 载 器 
中 间 件 中 实现 的 。 它 们 通常 都 非常 复杂 ， 在 处 理 
Request/Response 内 部 构件 时 有 着 很 高 的 技巧 。 你 可 以 创建 目 定 
义 的 中 间 件 ， 以 使 Scrapy 按 照 你 要 求 的 方式 处 理 Request 。 通 常 ， 成 
功 的 中 间 件 可 以 在 多 个 项 目 中 复 用 ， 并 且 可 以 向 其 他 Scrapy 开 发 者 提 
供 有 用 的 功能 ， 因 此 癌 社 区 分 享 是 个 不 错 的 选择 。 你 没有 必要 经 常 编 
写 下 载 硕 中 间 件 。 如 果 你 想 了 解 默认 的 下 载 锅 中 间 件 ， 可 以 查看 
ScrapyHGithub(/2 fF set tings/default_settings. py 文件 的 
DOWNLOADER_MIDDLEWARES_BASE 设置 。 


下 载 融 是 真正 执行 下 载 的 引擎 。 除 非 你 是 Scrapy 的 代码 页 献 者 ， 
否则 不 要 修改 它 。 


有 时 候 ， 你 可 能 需要 编写 爬虫 中 间 件 ( 见 图 8.3) 。 这 些 中 间 件 在 
怜 虫 之 后 且 所 有 下 载 右 中 间 件 之 前 处 理 Request ; 而 在 处 理 
Response 时 ， 则 是 相反 的 顺序 。 使 用 下 载 絮 中 间 件 ， 可 以 做 很 多 事 
情 ， 比 如 重 写 所 有 URL， 使 用 HTTPS 人 代替 HTTP， 而 不 用 管 伶 虫 从 页 
面 中 抽取 出 来 的 内 容 是 什么 。 它 可 以 实现 特定 于 项 目 需求 的 功能 ， 并 
分 享 给 所 有 的 疏 虫 。 下 载 器 中 间 件 和 疏 虫 中 间 件 最 主要 的 区 别 是 ， 当 
下 载 器 中 间 件 获取 一 个 Request 时 ， 只 会 返回 一 个 Response °- mE 
虫 中 间 件 可 以 在 对 某 些 Request 不 感 兴趣 时 舍弃 掉 它们 ， 或 者 对 每 个 
输入 的 Request 都 发 出 多 个 Request ， 用 来 完成 你 的 应 用 程序 的 目 
ER e AT LADUE Ala] EET Request 和 Response 的 ， 而 Item 管 道 
是 针对 Item 的 。 疏 虫 中 间 件 同样 也 接收 Item ， 不 过 通常 情况 下 不 会 
对 其 进行 修改 ， 因 为 在 Item 管 道中 进行 这 些 操作 更 加 容易 。 如 采 你 想 
了 解 默 认 的 怜 虫 中 间 件 ， 可 以 在 Scrapy 的 Git 上 得 看 
settings/default_settings.py 文件 的 
SPIDER_MIDDLEWARES_BASE 设置 。 


中 间 件 


+from_crawler(in crawler) 


+from_settings(in settings) f 
VAN VAN 7X 下 载 器 中 间 件 


+process_request(in request, in spider) 
+process_response()} 
+process_exception() 


Ehh Hh 
+process_spider_input(in response, in spider) 
Pol +process_spider_output(in response, in result, in spider) 


+process_item(in item, in spider) | |*Process_spider_exception(in response, in exception, in spider) 
+open_spider(in spider) +process_start_requests(in start_requests, in spider) 


+close_spider(in spider) 


图 8.3 ”中 间 件 架构 


最 后 还 有 一 个 部 分 是 扩展 。 扩 展 非 常常 见 ， 实 际 上 其 常见 程度 仅 
次 于 Item 管 道 。 它 们 是 在 仆 取 工作 启动 时 加 载 的 普通 类 ， 可 以 访问 设 
置 、 扑 虫 、 注 册 回 调 信 号 以 及 定义 自己 的 信号 。 信 和 号 是 一 类 基础 的 
Scrapy API， 它 可 以 让 回调 函数 在 系统 中 发 生 某 些 事 情 时 进行 调用 ， 
比如 Item 被 抓 取 、 丢 弃 时 或 爬虫 开启 时 。 有 很 多 非常 有 用 的 预定 义 
言 号， 我 们 将 会 在 后 边 见 到 其 中 的 一 部 分 。 某 种 意义 上 讲 ， 扩 展 有 些 
博 而 不 精 ， 它 能 够 让 你 写 出 任何 可 以 想到 的 工具 ， 但 又 无 法 给 你 实际 
的 帮助 (比如 像 Item 管 道 的 process_item( ) 方法 ) 。 我 们 必须 将 其 
hook 到 信号 上 ， 自 己 实现 需要 的 功能 。 例 如 ， 在 达到 指定 页 数 或 Item 
个 数 后 停止 朴 了 到， 就 是 通过 扩展 实现 的 。 如 果 想 要 了 解 默认 的 扩展 ， 
可 以 从 Scrapy 的 Git 上 查看 settings/default_settings .py 文件 
的 EXTENSIONS_BASE 设置 。 


更 严格 地 说 ，Scrapy 把 所 有 这 些 类 都 当 作 是 中 间 件 (通过 
MiddlewareManager 类 的 子 类 管理 ) ， 人 允许 我 们 通过 实现 
from_crawler() 或 from_settings() 类 方法 ， 分 别 从 Crawler 
或 Settings 对 象 初始 化 它们 。 由 于 Settings 可 以 从 Crawler 中 
轻松 获取 (crawler.settings) ， 因 此 from_crawler() 是 更 加 
流行 的 方式 。 如 果 不 需 要 Settings 或 Crawler ， 可 以 不 去 实现 它 
们 。 


表 8.1 可 以 帮助 你 在 针对 指定 问题 时 决定 最 好 的 机 制 。 


表 8.1 


些 只 针对 于 我 正在 爬 取 的 网 站 的 内 容 BUER 


EAEE item AFE, FRE HH 编写 Item 管 道 


修改 或 丢弃 Request/Response 一 ”特定 领域 ， 可 能 刀 


执行 Request/Response 通用 ， 比 如 支持 一 些 定制 化 登录 模式 或 | 编写 下 载 器 
处 理 Cookie 的 特定 方式 en 


所 有 其 他 问题 编写 扩 


8.3 “示例 1: 非常 简单 的 管道 


假设 我 们 有 一 个 包含 儿 个 朴 虫 的 应 用 ， 以 Python 种 见 格式 提供 让 
取 日 期 。 数 据 库 需 要 将 其 转 为 字符 串 格式 ， 以 便 进 行 索引 。 我 们 不 想 
编辑 爬虫 ， 因 为 谎 虫 的 数量 比较 多 。 此 时 可 以 怎么 做 呢 ? 使 用 一 个 非 
常 简单 的 管道 对 Item 进 行 后 置 处 理 ， 执 行 需要 的 转换 即 可 。 让 我 们 看 
看 它 是 如 何 工作 的 。 


from datetime import datetime 


class TidyUp(object): 
def process_item(self, item, spider): 


item['date'] = map(datetime.isoformat, item['date']) 
return item 


如 你 所 见 ， 这 里 只 有 一 个 包含 process_item( ) 方法 的 简单 
类 。 这 是 我 们 为 了 这 个 简单 管道 所 需要 做 的 所 有 事情 。 我 们 可 以 复 用 
第 3 章 中 的 仆 虫 ， 将 前 面 的 代码 写 入 pipelines 日 录 的 tidyup.py 
文件 中 。 


可 以 将 这 个 Item 管 道 的 代码 放 到 任何 地 方 ， 不 过 为 其 创建 一 个 单独 的 
目 孙 是 一 个 好 主意 。 


现在 ， 需 要 编辑 项 目的 settings.py XF, 将 
ITEM_PIPELINES 设置 为 


ITEM_PIPELINES = {'properties.pipelines.tidyup.TidyUp': 100 } 


前 面 代码 字典 中 的 数字 100， 用 于 定义 管道 连接 的 顺序 。 如 有 果 另 一 
个 管道 有 更 小 的 数值 ， 它 将 在 该 管道 之 前 优先 处 理 Item 。 


现在 ， 可 以 运行 该 爬虫 了 。 


$ scrapy crawl easy -s CLOSESPIDER ITEMCOUNT=90 


INFO: Enabled item pipelines: TidyUp 


DEBUG: Scraped from <200 ...property_000060.htm1> 


'date': ['2015-11-08T14:47:04.148968'], 


和 我 们 期 望 的 一 样 ， 日 期 现在 被 格式 化 为 ISO 字符 串 了 。 


8.4 信和 号 


言 号 提供 了 一 种 为 系统 中 发 生 的 事件 添加 回调 的 机 制 ， 比 如 当 扑 
虫 开启 时 或 当 item 被 抓 取 时 。 可 以 使 用 
crawler.signals.connect() 方法 hook 到 它们 上 (下 一 节 将 会 给 
出 使 用 它 的 一 个 示例 ) 。 信 号 总 共有 11 个 ， 理 解 它 们 的 最 简单 方式 可 
能 就 是 在 实践 中 看 到 它们 。 我 创建 了 一 个 项 目 ， 在 其 中 创建 了 一 个 扩 
展 ，hook 了 所 有 可 以 使 用 的 信号 。 男 外， 我 还 创建 了 一 个 Item 管 
道 、 一 个 下 载 器 和 一 个 息 虫 中 间 件 ， 可 以 记录 所 有 的 方法 调用 。 该 项 
日 使 用 的 息 虫 非常 简单 ， 只 对 两 个 item 进 行 yield 操作 ， 然 后 抛 出 异 
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def parse(self, response): 
for i in range(2): 
item = HooksasyncItem() 


item['name'] = "Hello %d" % i 
yield item 
raise Exception("dead") 


在 第 二 个 item 中 ， 我 配置 了 Item 管 道 ， 以 抛 出 DropItem 异常 。 


使 用 该 项 目 ， 我 们 可 以 更 好 地 理解 某 个 信号 是 什么 时 候 发 出 的 。 
请 查看 如 下 执行 中 日 志 行 之 间 的 注释 (为 了 简短 起 见 ， 省 略 了 部 分 


$ scrapy crawl test 


many lines 


# First we get those two signals... 


INFO: Extension, signals.spider_opened fired 


INFO: Extension, signals.engine_started fired 


# Then for each URL we get a request_scheduled signal 


INFO: Extension, signals.request_scheduled fired 


...# when download completes we get response_downloaded 


INFO: Extension, signals.response_downloaded fired 


INFO: DownloaderMiddlewareprocess_response called for example.com 


# Work between response_downloaded and response_received 


INFO: Extension, signals.response_received fired 


INFO: SpiderMiddlewareprocess_spider_input called for example.com 


# here our parse() method gets called... and then SpiderMiddleware 
used 


INFO: SpiderMiddlewareprocess_spider_output called for example.com 


# For every Item that goes through pipelines successfully... 


INFO: Extension, signals.item_scraped fired 


# For every Item that gets dropped using the DropItem exception... 


INFO: Extension, signals.item_dropped fired 


# If your spider throws something else... 


INFO: Extension, signals.spider_error fired 


# ... the above process repeats for each URL 


# ... till we run out of them. then... 


INFO: Extension, signals.spider_idle fired 


# by hooking spider_idle you can schedule further Requests. If you 
don't 


# the spider closes. 


INFO: Closing spider (finished) 


INFO: Extension, signals.spider_closed fired 


# ... Stats get printed 


# and finally engine gets stopped. 


INFO: Extension, signals.engine_stopped fired 


pO 


虽然 只 有 11 个 信号 ， 可 能 会 感觉 比较 有 限 ， 但 是 每 个 Scrapy 的 默 
认 中 间 件 都 是 只 使 用 它们 实现 的 ， 因 此 它们 肯定 够 用 。 请 注意 ， 除 了 
spider_idle 、spider_error ` request_scheduled ` 
response_received filresponse_downloaded 以 外 的 所 有 其 他 
信号 ， 都 可 以 返回 延迟 ， 而 不 是 真实 值 。 


8.5 “示例 2: 测量 吞吐 量 和 延 时 的 扩展 


当 我 们 在 第 9 章 中 添加 管道 后 ， 测 量 吞 吐 量 (每 秒 的 item 数 ) ARE 
时 〈 计 划 后 和 下 载 后 的 时 间 ) 的 变化 是 一 件 很 有 意思 的 事情 。 


Scrapy 扩 展 中 已 经 包含 了 一 个 测量 吞吐 量 的 扩展 ， 即 日 志 统 计 扩 
展 (scrapy/extensions/logstats.py) ， 我 们 将 会 以 此 为 起 
点 。 要 想 测 量 延 时 ， 需 要 hook 一 些 信号 ， 包 括 request_scheduled 
、response_received #ilitem_scraped 。 我 们 对 每 个 信号 记录 
时 间 戳 ， 并 通过 累计 多 次 取 平 均值 的 方式 减 去 适当 的 计算 延 时 。 通 过 
观察 这 些 信号 提供 的 回调 参数 ， 会 发 现 一 些 讨 大 的 东西 。 
item_scraped 只 在 Response 中 获得 ，reduest_scheduled 只 
在 Request 中 获得 ， 而 response_received 则 是 两 者 中 都 有 。 幸 
运 的 是 ， 我 们 不 需要 任何 特殊 的 技巧 来 传递 这 些 值 。 每 个 Response 
都 有 一 个 Request 成 员 ， 回 指 其 Request ， 更 好 的 是 它 拥有 我 们 在 
第 5 章 中 看 到 的 meta 字典 ， 它 和 原始 Request 中 的 一 样 ， 而 不 管 是 
否 存在 重 定 癌 。 非 常 好， 我 们 可 以 在 这 里 存储 时 间 稚 了 ! 


实际 上 ， 这 并 不 是 我 的 主意 。 同 样 的 机 制 已 经 在 AutoThrottle 扩 展 
scrapy/extensions/throttle.py) 中 使 用 了 。 在 该 扩展 中 ， 使 
了 request.meta.get('download_latency') ， 其 中 


download_latency 是 在 
scrapy/core/downloader/webclient.py 下 载 器 中 进行 计算 的 。 在 
自己 熟悉 Scrapy 默 认 的 中 间 件 代 
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下 面 是 扩展 的 代码 。 


class Latencies(object): 
@classmethod 
def from_crawler(cls, crawler): 
return cls(crawler ) 


def _ init__(self, crawler): 
self.crawler = crawler 
self.interval = 
crawler.settings.getfloat('LATENCIES _INTERVAL' ) 
if not self.interval: 
raise NotConfigured 
cs = crawler.signals 
cs.connect(self._spider_opened, 
cs.connect(self._spider_closed, 
cs.connect(self._request_scheduled, 
Signal=signals.request_scheduled) 
cs.connect(self._response_received, 


Signal=signals.response_received) 
cs.connect(self._item_scraped, signal=signals.item_scraped) 


self.latency, self.proc_latency, self.items = 0, 0, 0 


signal=signals.spider_opened) 
signal=signals.spider_closed) 


def _spider_opened(self, spider): 
self.task = task.LoopingCall(self._log, 
self.task.start(self.interval) 


spider ) 


def _spider_closed(self, spider, reason): 
if self.task.running: 
self.task.stop() 


def _request_scheduled(self, request, spider): 
request.meta['schedule_time'] = time() 
def _response_received(self, response, request, spider): 
request.meta['received_time'] = time() 
def _item_scraped(self, item, response, spider): 
self.latency += time() - response.meta['schedule_time' ] 
self.proc_latency += time() - response.meta['received_time' ] 
self.items += 1 
def _log(self, spider): 
irate = float(self.items) / self.interval 
latency = self.latency / self.items if self.items else 0 
proc_latency = self.proc_latency / self.items if self.items 
else 0 
spider.logger.info(("Scraped %d items at %.1f items/s, avg 
latency: " 
"%.2f s and avg time in pipelines: %.2f s") % 
(self.items, irate, latency, proc_latency) ) 
self.latency, self.proc_latency, self.items = 0, 0, 0 


前 两 个 方法 非常 重要 ， 因 为 它们 很 通用 。 它 们 使 用 Crawler WR 
初始 化 中 间 件 。 你 会 发 现 这 些 代码 几乎 出 现在 每 个 重要 的 中 间 件 当 
中 。from_crawler(cls，crawler ) 是 获取 Crawler 对 象 的 方 
式 。 然 后 ， 可 以 注意 到 在 ”init _() 方法 中 ,访问 了 
crawler.settings ， 并 且 会 在 其 未 设置 时 抛 出 NotConfigured 
异常 。 你 会 看 到 很 多 FooBar 扩展 ， 用 于 检查 相应 的 
FOOBAR_ENABLED 设置 ， 如 果 没 有 设置 或 者 设置 为 False 时 ， 将 会 
抛 出 异常 。 这 是 一 种 非常 常见 的 模式 ， 是 为 了 方便 将 中 间 件 包含 在 对 
应 的 settings,py 设置 中 (比如 ITEM_PIPELINES ) ， 但 是 默认 情 
况 下 是 禁用 的 ， 除 非 通过 其 对 应 的 设置 显 式 启用 。 许 多 默认 的 Scrapy 
中 间 件 (比如 AutoThrottle 或 HttpCache) 都 使 用 了 这 种 模式 。 在 本 例 
中 ， 我 们 的 扩展 会 保持 LATENCIES_INTERVAL 的 禁用 状态 ， 除 非 已 
经 对 其 进行 了 设置 。 


f£__init__() 方法 的 后 面 一 部 分 代码 中 ， 我 们 使 用 
crawler.signals.connect() ， 为 所 有 感 兴趣 的 信号 都 注册 了 回 
调 ， 并 初始 化 了 一 些 成 员 变 量 。 这 个 类 的 剩余 部 分 实现 了 信号 处 理 
at ° 4_Sspider_opened() 中 ， 我 们 初始 化 了 一 个 计时 器 ， 会 每 隔 
LATENCIES_INTERVAL 秒 调用 _1log( ) 方法 ; 在 
_spider_closed() 中 ， 我 们 停止 了 该 计时 器 。 在 
_request_scheduled() 和 _response_received() F, RITE 
request .meta 中 存储 了 时 间 稚 ;而 在 _item_scraped() 中 ,我 
们 累计 两 次 延 时 (从 计划 / 接收 开始 直到 当前 时 间 ) ， 并 递增 抓 取 到 
的 Item 的 数量 。 在 _1og () 方法 中 ， 我 们 计算 了 平均 值 ， 格 式 化 并 打 
印 出 消息 ， 重 置办 加 妖 以 开始 为 一 个 采样 周期 。 


任何 在 多 线程 上 下 文中 编写 类 似 代码 的 人 ， 都 会 意识 到 上 述 代 码 中 没 
有 使 用 互 斤 锁 。 本 例 可 能 还 不 是 特别 复杂 ， 不 过 编写 单线 程 代 码 仍然 要 更 
加 简单 ， 并 且 在 更 加 复杂 的 场景 下 可 以 很 好 地 扩展 。 


我 们 可 以 将 该 扩展 的 代码 添加 到 1atencies .py 模块 中 ， 放 到 和 
settings. py 同 级 的 目录 下 。 如 果 想 要 启用 该 扩展 ， 只 需 在 
settings.py 文件 中 添加 如 下 两 行 。 


EXTENSIONS = { 'properties.latencies.Latencies': 500, } 
LATENCIES INTERVAL = 5 


我 们 可 以 像 平 时 那样 运行 它 


$ pwd 
/root/book/ch08/properties 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 -s 
LOG_LEVEL=INFO 


INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 
items/min) 


INFO: Scraped 0 items at 0.0 items/sec, average latency: 0.00 sec 
and 


average time in pipelines: 0.00 sec 


INFO: Scraped 115 items at 23.0 items/s, avg latency: 0.84 s and 
avg time 


in pipelines: 0.12 s 


INFO: Scraped 125 items at 25.0 items/s, avg latency: 0.78 s and 
avg time 


in pipelines: 0.12 s 


日 志 的 第 一 行 来 目 日 志 统计 扩展 ， 而 接 下 来 的 各 行 来 目 我 们 的 扩 
展 。 可 以 看 到 吞吐 量 是 每 秒 25 个 item， 平 均 时 延 是 0.78 秒 ， 我 们 在 下 载 


后 几乎 没有 人 花费 时 间 处 理 。 通 过 利 特 尔 法 则 ， 我 们 得 到 系统 中 item 的 
数量 为 N =S- T= 43 + 0.45 = 19。 无 论 设置 的 
CONCURRENT_REQUESTS 和 
CONCURRENT_REQUESTS_PER_DOMAIN 是 多 少 ， 即 便 没有 触及 
100% 的 CPU， 出 于 某 些 原因 ， 也 不 应 该 使 其 超过 30。 我 们 可 以 在 第 10 
章 中 了 解 更 多 相关 内 容 。 


8.6 ”中 间 件 延伸 


本 世 是 为 好 奇 的 读者 提供 的 ， 而 不 再 是 开发 者 。 如 果 只 是 编写 基 
础 或 中 级 的 Scrapy 扩 展 的 话 ， 你 并 不 需要 了 解 这 些 内 容 。 


如 果 查 看 scrapy/settings/default_settings.py 文件 ， 
区 会 发 现在 默认 设置 中 有 很 多 类 名 。Scrapy 大 量 使 用 了 依赖 注入 机 
制 ， 可 以 让 我 们 目 定 义 和 扩 展 许多 内 部 对 象 。 例 如 ， 一 些 人 可 能 希望 
支持 除了 文件 、HTTP、HTTPS、S3 以 及 FTP 这 些 在 
DOWNLOAD_HANDLERS_BASE 设 置 中 定义 好 的 协议 以 外 的 更 多 协 
议 。 要 想 实现 这 一 点 ， 只 需要 创建 一 个 下 载 处 理 器 类 ， 并 在 
DOWNLOAD_HANDLERS 设 置 中 添加 映射 即 可 。 最 困难 的 部 分 是 找 
出 你 的 自 定义 类 必须 包含 哪些 接口 〈 即 需要 实现 哪些 方法 ) ， 因 为 大 
部 分 接口 都 不 是 显 式 的 。 你 必须 阅读 源 代码 ， 查 看 这 些 类 是 如 何 使 用 
的 。 最 好 的 办 法 是 从 已 有 的 实现 开始 ， 将 其 修改 为 令 自 己 满意 的 版 
本 。 不 过 ， 这 些 接口 在 近期 的 Scrapy 版 本 中 已 经 逐渐 趋 于 稳定 ， 因 此 
我 将 尝试 在 图 8.4 中 将 它们 和 Scrapy 核 心 类 一 起 记录 成 文档 (这 里 省 略 
了 前 面 已 经 提 及 的 中 间 件 架构 ) 。 


scrapy craw] and other 
commands 


-spider_loader : SpiderLoader 


+crawl(in crawler_or_spidercls) 
+stop() 


+from_settings() 

+load(in spider_name) 

+list() 

+find_by_request(in request) 


«uses» 


-stats : StatsCollector 

-spider : Spider 

-engine : ExecutionEngine 
-signals : SignalManager 
-settings : Settings 

-extensions : ExtensionManager 
-logformatter : LogFormatter 


| | DummyStatsCollector 
| K 


| 
A | | 


DownloadHandlers 
+download_requestlin request, in spider) 


«uses» 


FileDownloadHandler 


U 
DownloadHandler 


+download_request(in request, in spider) 
+close() 


„also S3DownloadHandler, 
HttpDownloadHandler which inherits from 
HTTP10DownloadHandler etc. 


FTPDownloadHandler 


> 
po 
| 


An interesting extension 
is FeedExporter: 


«uses» 
FeedExporter BaseltemExporter 
| «uses» | +start_exporting(in request, in spider) 
+finish_exporting() 


+export_item(in item) 


IFeedStorage 


+ope! 
+store() 
AN 


n() 
A A 


JsonLinesitemExporter 


..also CsvitemExporter, 
PickleltemExporter, 
MarshalltemExporter, 
PprintitemExporter, 
PythonitemExporter etc. 


FTPFeedStorage 


-mqs : MemoryQueue 
-dqs : DiskQueue 
-dupefilter : BaseDupeFilter 


+enqueue_request() 
+next_request() 
'+__len__() 


+request_seen(in request) 
+log(in request, in spider) 


scrapy check command 
«uses» 
1 


上 
1 
ContractsManager 


+pre_process(in response) 
+post_process(in output) 
+adjust_request_args(in args) 


+post_process(in output) 


+adjust_request_args(in args) 


+post_process(in output) 


图 8.4 ”Scrapy 接 口 和 核心 对 象 


核心 类 位 于 图 8.4 的 左上 角 。 当 人 们 使 用 scrapy crawl 时 ， 
Scrapy 就 会 使 用 CrawlerProcess 对 象 创建 我 们 熟悉 的 Crawler 对 
象 。Crawler 对 象 是 最 重要 的 Scrapy 类 。 它 包括 settings ` 
signals 以 及 spider。 在 名 为 extensions.crawler.engine 
的 ExtensionManager 对 象 中 ， 还 包含 所 有 的 扩展 ， 这 将 市 领 我 们 
来 到 另 一 个 非常 重要 的 类 一 ExecutionEngine 。 在 该 类 中 ， 包 含 
了 Scheduler + Downloader 以 及 Scraper 。URL 通 过 
Scheduler 进行 计划 ， 通 过 Downloader 下 载 ， 通 过 Scraper 进行 
后 置 处 理 。 训 无 疑问 ，Down1loader 包含 DownloaderMiddleware 
和 DownloadHandler ， 而 Scraper 包含 SpiderMiddleware 和 
ItemPipeline 。4 个 MiddlewareManager 也 都 拥有 其 自己 的 小 架 
构 。 在 Scrapy 中 ，feed 输 出 是 以 扩展 的 形式 实现 的 ， 即 
FeedExporter 。 它 包含 两 个 独立 的 结构 ， 一 个 用 于 定义 输出 格式 ， 
而 男 一 个 用 于 存储 类 型 。 这 就 允许 我 们 可 以 通过 调整 输出 的 URL 将 S3 
的 XML 文 件 导 出 为 命令 行 上 的 Pickle 编 码 输 出 。 这 两 个 结构 还 可 以 使 
用 FEED_STORAGES 和 FEED_EXPORTERS 设置 进行 独立 扩展 。 最 
后 ，scrapy check 命令 使 用 的 contract 也 有 其 自身 的 结构 ， 可 以 使 
用 SPIDER_CONTRACTS 设置 进行 扩展 。 


8.7 “本章 小 结 


恭喜 你 ， 你 已 经 对 Scrapy 和 Twisted 编程 有 了 深入 了 解 。 你 可 
能 还 会 多 次 阅读 本 章 ， 并 将 本 章 作 为 参考 使 用 。 到 目前 为 止 ， 我 们 需 


要 的 最 流行 的 扩展 是 Item 处 理 管 道 。 下 一 章 会 用 它 解 决 一 些 闻 见 的 


问题 。 


第 9 章 ”管道 秘诀 


上 一 章 讨 论 了 使 用 Scrapy 中 间 件 的 编程 技术 。 本 章 将 通过 展示 各 
种 常见 用 例 (包括 消费 REST API、 数 据 库 接口 、 处 理 CPU 密 集 型 任务 
以 及 与 遗留 服务 的 接口 ) ， 重 点 关注 编写 正确 而 高 效 的 管道 。 


在 本 草 中 ， 我 们 将 会 使 用 几 个 新 的 服务 右 ， 你 可 以 在 图 9.1 的 右 侧 
看 到 这 些 服 务 器 。 


图 9.1 ”本章 使 用 的 系统 


Vagrant 应 该 已 经 为 我 们 创建 好 了 这 些 服 务 器 ， 我 们 可 以 从 dev 服 
务 咒 中 使 用 其 主机 名 进行 ning 操作， 例如 ping es 或 ping mysql ° 
话 不 多 说 ， 让 我 们 从 REST API 开 始 探索 吧 。 


9.1 使 用 REST API 


REST 是 一 套用 于 创建 现代 Web 服 务 的 技术 ， 其 主要 优点 是 比 
SOAP 或 专 有 Web 服 务 机 制 更 加 简单 ， 更 加 轻 量 级 。 软 件 开发 人 员 观 察 
发 现 ，Web 服 务 经 常 提 供 的 CRUD (创建 、 读 取 、 更 新 、 删 除 
[Create ` Read ` Update ` Delete] ) 功能 与 HTTP 基 本 操作 (GET > 
POST、PUT、DELETE) 具有 相似 性 。 另 外 ， 他 们 还 发 现 典型 的 Web 
服务 调用 其 所 需 的 大 部 分 信息 时 ， 都 可 以 将 其 压缩 到 资源 URL 上 。 例 
a, http://api.mysite.com/ customer/john 是 一 个 资源 
URL， 它 可 以 让 我 们 确定 目标 服务 器 (api.mysite.com) ， 实 际 
上 我 正在 尝试 在 服务 器 上 执行 和 customers ( 表 ) 相关 的 操作 ， 更 
具体 的 说 束 是 执行 和 john ( 行 一 一 主键 ) 相关 的 操作 。 当 它 与 其 他 
Web 概 念 (如 安全 认证 、 无 状态 、 缓 存 、 使 用 XML 或 JSON 作 为 载 从 
等 ) 结合 时 ， 能 够 通过 一 种 强大 而 又 简单 、 熟 悉 且 可 以 轻松 跨 平台 的 
方式 ， 提 供 和 使 用 Web 服 务 。 难 怪 REST 可 以 掀起 软件 行业 的 一 场 风 
暴 。 


9.1.1 使 用 treq 


tred 是 一 个 Python 包 ， 相 当 于 基于 Twisted 应 用 编写 的 Python 
requests 包 。 它 可 以 让 我 们 轻松 执行 GET、POST 以 及 其 他 HTTP 请 
求 。 想 要 安装 该 包 ， 可 以 使 用 pip install treq ， 不 过 它 已 经 在 
我 们 的 开发 机 中 预先 安装 好 了 。 


我 们 更 倾 问 于 选择 tred 而 不 是 Scrapy 的 
Request/crawler .engine.download( ) 的 原因 是 ， 虽 然 它们 都 
很 简单 ， 但 是 在 性 能 上 treq 更 有 优势 ， 我 们 将 会 在 第 10 章 中 看 到 更 
详细 的 介绍 。 


9.1.2 用 于 写 入 Elasticsearch 的 管道 


首先 ， 我 们 要 编写 一 个 将 Item 存储 到 ES (Elasticsearch ) 服务 
需 的 爬虫 。 你 可 能 会 觉得 从 ES 开始 ， 甚 至 和 于 MySQL ， 作 为 持久 化 机 
制 进行 讲解 有 些 不 太 寻 常 ， 不 过 其 实 它 是 我 们 可 以 做 的 最 简单 的 事 
情 。ES 可 以 是 无 模式 的 ， 也 就 是 说 无 需 任何 配置 束 能 够 使 用 它 。 对 于 
我 们 这 个 (非常 简单 的 ) 用 例 来 说 ，treq 也 已 经 足够 使 用 。 如 果 想 
要 使 用 更 高 级 的 ES 功能 ， 则 需要 考虑 使 用 txes2 或 其 他 
Python/Twisted ES 包 。 


在 我 们 的 开发 机 中 ， 已 经 包含 正在 运行 的 ES 服务 器 了 。 下 面 登 录 
到 开发 机 中 ， 验 证 其 是 否 正在 正常 运行 。 


$ curl http://es:9200 


{ 


"name" : "Living Brain", 


"cluster_name" : "elasticsearch", 


"version" : { ... }, 


"tagline" : "You Know, for Search" 


在 宿主 机 浏览 器 中 ， 访 问 http://localhost:9200 ， 也 可 以 
看 到 同样 的 结果 。 当 访问 
http://localhost:9200/properties/property/_search 
上 时， 可 以 看 到 返回 的 响应 表示 ES 进行 了 全 局 性 的 尝试 ， 但 是 没有 找到 
任何 与 房产 信息 相关 的 索引 。 茶 喜 你 ， 刚 刚 已 经 使 用 了 ES 的 REST 
API ° 


在 本 章 ， 我 们 将 在 properties 集 合 中 插入 房产 信息 。 你 可 能 需要 重 置 
properties 集 合 ， 此 时 可 以 使 用 curl 执行 DELETE 请 求 : 


$ curl -XDELETE http://es:9200/properties 


本 章 中 管道 实现 的 完整 代码 包含 很 多 额外 的 细 方 ， 如 更 多 的 错误 
处 理 等 ， 不 过 我 将 通过 凸显 关键 点 的 方式 ， 保 持 这 里 的 代码 简 洛 。 


本 章 在 ch99 目录 当中 ， 其 中 本 示例 的 代码 为 
ch09/properties/properties/pipelines/es.py ° 


有 
从 本 质 上 说 ， 疏 虫 代码 只 包含 如 下 4 行 。 


@defer.inlineCallbacks 
def process_item(self, item, spider): 


data = json.dumps(dict(item), ensure_ascii=False) .encode("utf - 
8") 
yield treq.post(self.es_url, data) 


其 中 ， 前 两 行 用 于 定义 标准 的 process_item() 方法 ， 可 以 在 
其 中 yield 延迟 操作 (参考 第 8 章 ) 。 


第 3 行 用 于 准备 要 插入 的 data。 首 先 ， 我 们 将 Item 转化 为 字 
典 。 然 后 使 用 json.dumps( ) 将 其 编码 为 JSON 格 式 。 
ensure_ascii=False 的 目的 是 通过 不 转 义 非 ASCII 字 符 ， 使 得 输 
出 更 加 紧 恋 。 然 后 ， 将 这 些 JSON 字 符 串 编码 为 UTF-8， 即 JSON 标 准 中 
的 默认 编码 。 


最 后 一 行使 用 treq 的 post( ) 方法 执行 POST 请 求 ， 将 文档 插入 
到 ElasticSearch 中 。es_url 存储 在 settings ,py 文件 当中 
(ES_PIPELINE_URL 设置 ) ， 如 http:// 
es:9200/properties/property ， 可 以 提供 一 些 基本 信息 ， 如 
ES 服务 器 的 了 P 和 端口 (es:9200) 、 集 合 名 称 (properties) 以 
及 想 要 写 入 的 对 象 类 型 (property) 。 


要 想 启 用 该 管道 ， 需 要 将 其 添加 到 settings .py 文件 的 
ITEM_PIPELINES 设置 当中 ， 并 且 使 用 ES_PIPELINE_URL 设置 进 
行 初始 化 。 


ITEM_PIPELINES = { 
'properties.pipelines.tidyup.TidyUp': 100, 
'properties.pipelines.es.EswWriter': 800, 


} 
ES_PIPELINE URL = 'http://es:9200/properties/property' 


完成 上 述 工作 后 ， 我 们 可 以 进入 到 适当 的 目录 当中 。 


$ pwd 
/root/book/ch09/properties 
$ ls 


properties scrapy.cfg 


Pa, FrUaiBsTME HR ° 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Enabled item pipelines: EsWriter... 


INFO: Closing spider (closespider_itemcount)... 


"item_scraped_count': 106, 


如 果 现 在 再 次 访问 http://localhost:9200/properties/ 
property/_ search ， 可 以 在 啊 应 的 hits/total 字段 中 看 到 已 
经 插入 的 条 目 数 量 ， 以 及 前 10 条 结果 。 我 们 还 可 以 通过 添加 ? 
Size=100 参数 取得 更 多 结果 。 在 搜索 URL 中 添加 q= 参数 时 ， 可 以 在 
全 部 或 特定 字段 中 搜索 指定 天 键 词 。 最 相关 的 结 采 将 会 出 现在 最 前 
H ° Plan, http://localhost: 
9200/properties/property/_search?q=title: london, 
将 会 返回 标题 中 包 侣 "London" 的 房产 信息 。 对 于 更 加 复杂 的 查询 ， 可 
以 查阅 ES 的 官方 文档 ， 网 址 为 : 


https://www.elastic.co/guide/en/elasticsearch/refe 


rence/current/ 


query-dsl-query-string-query.html 。 


ES 不 需要 配置 的 原因 是 它 可 以 根据 我 们 提供 的 第 一 个 属性 自动 检 
测 模 式 (字段 类 型 ) 。 通 过 访问 
http://localhost:9200/properties/ ， 可 以 看 到 其 自动 检测 
的 映射 关系 。 


让 我 们 快速 查看 一 下 性 能 ， 使 用 上 一 章 结尾 处 给 出 的 方式 重新 运 
行 scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 ° 
平均 延 时 从 0.78 秒 增长 到 0.81 秒 ， 这 是 因为 管道 的 平均 时 间 从 0.12 秒 增 
长 到 了 0.15 秒 。 否 吐 量 仍 然 保 持 在 每 秒 大 约 25 个 Item 。 


使 用 管道 将 Item 插 入 到 数据 库 当 中 是 不 是 一 个 好 主意 呢 ? 答案 是 否定 
的 。 通 常情 况 下 ， 数 据 库 提供 的 批量 插入 条 目的 方式 可 以 有 几 个 数量 级 的 
效率 提升 ， 因 此 我 们 应 当 使 用 这 种 方式 。 也 就 是 说 ， 应 当 将 Item 打 包 批 量 
插入 ， 或 在 爬虫 结束 时 以 后 置 处 理 的 步骤 执行 插入 。 我 们 将 在 最 后 一 章 中 
看 到 这 些 方法 。 不 过 ， 许 多 人 仍然 使 用 Item 管 道 插入 数据 库 ， 此 时 使 用 
Twisted API 而 不 是 通用 /阻塞 的 方法 实现 该 方案 才 是 正确 的 方式 。 


9.1.3 ”使 用 Google Geocoding API 实 现 地 理 编码 的 管道 


每 个 房产 信息 都 有 地 区 名 称 ， 因 此 我 们 想 对 其 进行 地 理 编码， 也 
就 是 说 找到 它们 对 应 的 坐标 〈 经 度 、 纬 度 ) 。 我 们 可 以 使 用 这 些 坐 标 
将 房产 信息 放 到 地 图 上 ， 或 是 根据 它们 到 某 个 位 置 的 距离 对 搜索 结 
进行 排序 。 开 发 这 种 功能 需要 复杂 的 数据 库 、 文 本 匹配 以 及 空间 计 
算 。 而 使 用 Google 的 Geocoding API， 可 以 避免 上 面 提 到 的 几 个 问题 。 
可 以 通过 浏览 器 或 curl 打开 下 述 URL 以 获取 数据 。 


$ curl "https://maps.googleapis .com/maps/api/geocode/json? 
sensor=falseé&ad 


dress=london" 


"results" : [ 


"formatted_address" : "London, UK", 


"geometry" : { 


"location" : { 


"lat" : 51.5073509, 


"Ing" : -0.1277583 
}, 
"location_type" : "APPROXIMATE", 
1, 
"status" : "OK" 


我 们 可 以 看 到 一 个 JSON 对 象 ， 当 搜索 "location" 时 ， 可 以 很 快 发 现 
Google 提 供 的 是 伦敦 中 心 坐 标 。 如 果 继 续 搜 索 ， 会 发 现 同 一 文档 中 还 


包 侣 其 他 位 置 。 其 中 ， 第 一 个 坐标 位 置 是 最 相关 的 。 因 此 ， 如 采 人 存在 


results[0].geometry.location 的 话 ， 它 就 是 我 们 所 需要 的 信 
自 。 


JEN 


Google 的 Geocoding API 可 以 使 用 之 前 用 过 的 技术 (treq) 进行 
访问 。 只 需 儿 行 ， 就 可 以 找 出 一 个 地 址 的 坐标 位 置 (查看 pipeline 


目录 的 geo ,py X) ， 其 代码 如 下 。 


@defer.inlineCallbacks 
def geocode(self, address): 
endpoint = 'http://web:9312/maps/api/geocode/json' 


parms = [('address', address), ('sensor', 'false')] 
response = yield treq.get(endpoint, params=parms) 
content = yield response.json() 


geo = content['results'][0]["geometry"]["location" ] 
defer.returnValue({"lat": geo["lat"], "lon": geo["1ng"]}) 


该 函数 使 用 了 一 个 和 前 面 用 过 的 URL 相 似 的 URL， 不 过 在 这 里 将 
其 指向 到 一 个 假 的 实现 ， 以 使 其 执行 速度 更 快 ， 侵 入 性 更 小 ， 可 离线 
使 用 并 且 更 加 可 预测 。 可 以 使 用 endpoint = 
"https://maps.googleapis.com/maps/api/geocode/json 
' 来 访问 Google 的 服务 器 ， E a 
Ki] ° address 和 sensor 的 值 都 通过 tred 的 get( ) 方法 的 
params 参数 进行 了 自动 URL 编 码 。treq .get() 方法 返回 了 一 个 延 
迟 操作 ， 我 们 对 其 执行 yield 操作 ， 以 便 在 响应 可 用 时 恢复 它 。 对 
response.json() 的 第 二 个 yield 操作 ， 用 于 等 待 啊 应 体 加 载 完 成 
并 解析 为 Python 对 象 。 此 时 ， 我 们 可 以 得 到 第 一 个 结果 的 位 置信 息 
将 其 格式 化 为 字典 后 ， 使 用 defer .returnValue( ) 返回 ， 该 方法 
是 从 使 用 inlineCcallbacks 的 方法 返回 值 的 最 适当 的 方式 。 如 有 果 任 
何 地 方 存在 问题 ， 该 方法 会 抛 出 异常 ， 并 通过 Scrapy 报 告 给 我 们 。 


通过 使 用 geocode() , process_item() 可 以 变 为 一 行 代码 ， 
如 下 所 示 。 


item["location"] = yield self.geocode(item["address"][0]) 


我 们 可 以 在 ITEM_PIPELINES 设置 中 添加 并 启用 该 管道 ， 其 优 
先 级 数值 应 当 小 于 ES 的 优先 级 数值 ， 以 便 ES 获 取 坐 标 位置 的 值 。 


ITEM_PIPELINES = { 


"properties.pipelines.geo.GeoPipeline': 400, 
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$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 -L DEBUG 


{'address': [u'Greenwich, London'], 


"image_urls': [u'http://web:9312/images/i06.jpg'], 


"location': {'lat': 51.482577, 'lon': -0.007659}, 


"price': [1030.0], 


现在 ， 可 以 看 到 Item 中 包含 了 location ZE ° KET! 不 过 当 
使 用 真实 的 Google API 的 URELI 临 时 运行 它 时 ， 很 快 就 会 得 到 类 似 下 面 
的 异常 。 


File "pipelines/geo.py" in geocode (content['status'], address)) 
Exception: Unexpected status="OVER_QUERY_LIMIT" for 


address="*London" 


这 是 我 们 在 完整 代码 中 放 入 的 一 个 检查 ， 用 于 确保 Geocoding API 
的 响应 中 status 字段 的 值 是 OK。 如 果 该 值 非 真 ， 则 说 明 我 们 得 到 的 
返回 数据 不 是 期 望 的 格式 ， 无 法 被 安全 使 用 。 在 本 例 中 ， 我 们 得 到 了 
OVER_QUERY_LIMIT 状态 ， 可 以 清楚 地 说 明 在 什么 地 方 发 生 了 错 
误 。 这 可 能 是 我 们 在 许多 案例 中 都 会 面临 的 一 个 重要 问题 。 由 于 
Scrapy 的 引 警 具备 较 高 的 性 能 ， 组 在 和 资源 请 求 的 限 流 成 为 了 必须 考 
虑 的 问题 。 


可 以 访问 Geocoder API 的 文档 来 了 解 其 限制 : “免费 用 户 API: 
24 人 小 时 允许 2500 个 请 求 ， 每 秒 允许 5 个 请 求 ”。 即 使 使 用 了 Google 
Geocoding API 的 付费 版 本 ， 仍 然 会 有 每 秒 10 个 请 求 的 限 流 ， 这 惑 意味 
着 该 讨论 仍然 是 有 意义 的 。 


下 面 的 实现 看 起 来 可 能 会 比较 复杂 ， 但 是 它们 必须 在 上 下 文中 进行 判 
断 。 而 在 典型 的 多 线程 环境 中 创建 此 类 组 件 需要 线程 池 和 同步 ， 这 样 就 会 
产生 更 加 复杂 的 代码 。 


下 面 是 使 用 Twisted 技 术 实 现 的 一 个 稍 单 而 又 足够 好 用 的 限 流 引 


he 


class Throttler(object): 
def _init__(self, rate): 
self.queue = [] 
self.looping_call = task.LoopingCall(self._allow_one) 
self.looping_call.start(1. / float(rate)) 


def stop(self): 
self .looping_call.stop() 


def throttle(self): 
d = defer.Deferred() 
self .queue.append(d) 
return d 


def _allow_one(self): 
if self.queue: 
self .queue.pop(0).callback(None) 


该 代码 中 ， 延 迟 操作 排队 进入 列表 中 ， 每 次 调用 _allow_one() 
时 依次 触发 它们 ; _allow_one( ) 检查 队列 是 否 为 空 ， 如 果 不 是 ， 则 
调用 最 旧 的 延迟 操作 的 callback( ) (AHH, FIFO) 。 我 们 使 用 
Twisted 的 task .LoopingCall() API 周 期 性 调用 _allow_one()。 
使 用 Throttler 非常 向 单 。 我 们 可 以 在 管道 的 “init_ _ 中 对 其 进 
行 初始 化 ， 并 在 爬虫 结束 时 对 其 进行 清理 。 
class Geopipeline(object): 


def _init__(self, stats): 
self.throttler = Throttler(5) # 5 Requests per second 


def close_spider(self, spider): 
self.throttler.stop() 


在 使 用 想 要 限 流 的 资源 之 前 (在 本 例 中 为 在 process_item() 
中 调用 geocode( ) ) ， 需 要 对 限 流 器 的 throttle( ) 方法 执行 
yield 操作 。 


yield self.throttler.throttle() 
item["location"] = yield self.geocode(item["address"][0]) 


在 第 一 个 yield 时 ， 代 码 将 会 暂停 ， 等 竺 足够 的 时 间 过 去 之 后 再 
恢复 。 比 如 ， 某 个 时 刻 共有 11 个 延迟 操作 在 队列 中 ， 我 们 的 速率 限制 
是 每 秒 5 个 请 求 ， 我 们 的 代码 将 会 在 队列 清空 时 恢复 ， 大 约 为 11/15=2.2 


秒 。 


使 用 Throttler 后 ， 我 们 不 再 会 发 生 错误 ， 但 是 爬虫 速度 会 变 
得 非常 慢 。 通 过 观察 发 现 ， 示 例 的 房产 信息 中 只 有 有 限 的 几 个 不 同位 
置 。 这 是 使 用 缓存 的 一 个 非常 好 的 机 会 。 我 们 可 以 使 用 一 个 简单 的 
Python 字 上 典 来 实现 缓存 ， 不 过 这 种 情况 下 将 会 产生 竞 态 条 件 ， 导 致 不 
正确 的 API 调 用 。 下 面 是 一 个 没有 该 问题 的 缓存 ， 此 外 还 演示 了 一 些 
Python 和 Twisted 的 有 趣 特 性 。 


class DeferredCache(object): 
def _ init__(self, key_not_found_callback): 
self.records = {} 
self.deferreds_waiting = {} 
self .key_not_found_callback = key_not_found_callback 


@defer.inlineCallbacks 
def find(self, key): 
rv = defer.Deferred() 


if key in self.deferreds_ waiting: 
self.deferreds_waiting[key].append(rv) 
else: 
self.deferreds_waiting[key] = [rv] 


if not key in self.records: 
try: 
value = yield self.key_not_found_callback(key) 
self.records[key] = lambda d: d.callback(value) 
except Exception as e: 
self.records[key] = lambda d: d.errback(e) 


action = self.records[key] 
for d in self.deferreds_waiting.pop(key): 
reactor.callFromThread(action, d) 


value = yield rv 
defer.returnValue(value) 


该 缓存 看 起 来 和 人 们 通 前 期 望 的 有 些 不 同 。 它 包含 两 个 组 成 部 


e self.deferreds_waiting: 这 是 一 个 延迟 操作 的 队列 ， 等 待 
SERERE ° 
。 self.records: 这 是 已 经 出 现 的 键 -操作 对 的 字典 。 


如 果 查 看 find( ) 实现 的 中 间 部 分 ， 就 会 发 现 如 果 没 有 在 
self.records 中 找到 一 个 键 ， 则 会 调用 一 个 预定 义 的 callback & 
数 ， 取 得 缺失 值 (yield 
self.key_not_found_callback(key) ) 。 该 回调 函数 可 能 会 抛 
出 一 个 异常 。 我 们 要 如 何在 Python 中 以 紧 凌 的 方式 存储 这 些 值 或 异常 
We? 由 于 Python 是 一 种 函数 式 语 言 ， 我 们 可 以 根据 是 否 出 现 异 常 ， 在 
self.records 中 存储 调用 延迟 操作 的 callback 或 errback 的 小 
函数 (lambda) 。 在 定义 时 ， 该 值 或 异常 被 附加 到 lambda 函数 
中 
=| 


( 
o 函数 中 对 变量 的 依赖 被 称 为 团 包 ， 这 十 大 多 数 函 数 式 编 程 语言 最 
显著 和 强大 的 特性 之 一 。 


缓存 异常 有 些 不 太 常 见 ， 不 过 这 意味 着 如 果 在 第 一 次 查找 某 个 键 时 ， 
key_not_found_callback(key) 抛 出 了 异常 ， 那 么 接 下 来 对 相同 键 
再 次 查询 时 仍然 会 抛 出 同样 的 异常 ， 不 需要 再 执行 额外 的 调用 。 


find( ) 实现 的 剩余 部 分 提供 了 避免 况 态 条 件 的 机 制 。 如 果 要 查 
询 的 键 已 经 在 进程 当中 ， 将 会 在 self.deferreds_waiting 字典 中 
有 记录 。 在 这 种 情况 下 ， 我 们 不 再 额外 调用 
key_not_found_callback() ， 只 是 添加 到 延迟 操作 列表 中 ， 等 
待 该 键 。 当 key_not_found_callback() 返回 ， 并 且 该 键 的 值 变 
为 可 用 时 ， 触 发 每 个 等 待 该 键 的 延迟 操作 。 我 们 可 以 直接 执行 
action(d) ， 而 不 是 使 用 reactor .callFromThread() ， 不 过 这 
样 束 必须 处 理 所 有 抛 出 的 异常 ， 并 且 会 创建 一 个 不 必要 的 长 延迟 链 。 


使 用 缓存 非常 简单 。 只 需 在 _init__() 中 对 其 初始 化 ， 并 在 执 
行 API 调用 时 设置 回调 函数 即 可 。 在 process_item( ) 中 ， 按 照 如 
下 代码 使 用 缓存 。 


def _init__(self, stats): 
self.cache = DeferredCache(self.cache_key_not_found_callback) 


@defer.inlineCallbacks 

def cache_key_not_found_callback(self, address): 
yield self.throttler.enqueue( ) 
value = yield self.geocode(address) 
defer.returnValue( value) 


@defer.inlineCallbacks 

def process_item(self, item, spider): 
item["location"] = yield self.cache.find(item["address"][0] ) 
defer.returnValue(item) 


本 例 的 完整 代码 包含 了 更 多 的 错误 处 理 代 码 ， 能 够 对 限 流 导致 的 
普 误 重 试 调用 (一 个 简单 的 while 循环 ) ， 并 且 还 包含 了 更 新 聆 虫 状 
态 的 代码 。 


本 例 的 完整 代码 文件 地 址 为 : 
ch09/properties/properties/pipelines/geo2.py ° 


要 想 启用 该 管道 ， 需 要 禁用 GER) 之 前 的 实现 ， 并 且 在 
settings.py 文件 的 ITEM_PIPELINES 中 添加 如 下 代码 。 


ITEM_PIPELINES = { 
'properties.pipelines.tidyup.TidyUp': 100, 
'properties.pipelines.es.EsWwriter': 800, 
# DISABLE 'properties.pipelines.geo.GeoPipeline': 400, 


"properties.pipelines.geo2.GeoPipeline': 400, 
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$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


Scraped... 15.8 items/s, avg latency: 1.74 s and avg time in 
pipelines: 


0.94 s 


Scraped... 32.2 items/s, avg latency: 1.76 s and avg time in 
pipelines: 


0.97 s 


Scraped... 25.6 items/s, avg latency: 0.76 s and avg time in 
pipelines: 


0.14 s 


: Dumping Scrapy stats:... 


"geo_pipeline/misses': 35, 


"item_scraped_count': 1019, 
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示例 数据 集 内 不 同位 置 的 数量 。 显 然 ， 在 本 例 中 总 共有 1019 - 35 = 984 
次 命中 缓存 。 如 果 使 用 真实 的 Google API， 并 将 每 秒 对 API 的 请 求 数 量 
稍微 增加 ， 比 如 通过 将 Throttler(5) 改 为 Throttler(10) ， 把 每 
秒 请 求 数 从 5 增加 到 10， 就 会 在 geo_pipeline/retries 统计 中 得 
到 重 试 的 记录 。 如 果 发 生 任何 错误 ， 比 如 使 用 API 无 法 找到 一 个 位 

置 ， 将 会 抛 出 异常 ， 并 且 会 在 geo_pipeline/errors 统计 中 被 捕 
获 到 。 如 果 某 个 位 置 的 坐标 已 经 被 设置 《后面 的 小 节 中 看 到 ) ， 则 会 
在 geo_pipeline/already_set 统计 中 显示 。 最 后 ， 当 访问 


http://localhost:9200/ properties/ 
property/_search ， 查 看 房产 信息 的 ES 时 ， 可 以 看 到 包含 坐标 位 
置 值 的 条 有 目 ， 比 如 {..."location": {"lat": 51.5269736, 
"lon": -0.0667204}...} ， 这 和 我 们 所 期 望 的 一 样 (在 运行 之 前 
清理 集合 ， 确 保 看 到 的 不 是 旧 值 ) 。 


9.1.4 在 Elasticsearch 中 局 用 地 理 编码 索引 


既然 已 经 拥有 了 坐标 位 置 ， 现 在 就 可 以 做 一 些 事 情 了 ， 比 如 根据 
距离 对 结果 进行 排序 。 下 面 是 一 个 HTTP POST 请 求 (使 用 curl 执 
行 ) ， 返 回 标题 中 包含 "Angel" 的 房产 信息 ， 并 按照 它们 与 点 {51.54， 
-0.19} 的 距离 进行 排序 。 


$ curl http://es:9200/properties/property/_search -d '{ 


"query" : {"term" : { "title" : "angel" } }, 


"sort": [{"_geo_distance": { 


"location": {"lat": 51.54, "lon": -0.19}, 
"order": "asc", 
"unit" . "km" 
g 1 
"distance_type": "plane" 


}}13}' 


ed 


唯一 的 问题 是 当 演 试 运行 它 时 ， 会 发 现 运 行 失 败 ， 并 得 到 了 一 个 
错误 信息 : "failed to find mapper for [location] for 
geo distance based sort"。 这 说 明 位 置 字段 并 不 是 执行 空间 操 
作 的 适当 格式 。 要 想 设 置 为 合适 的 类 型 ， 则 需要 手动 重 写 其 默认 类 
型 。 首 先 ， 将 其 自动 检测 的 映射 天 系 保存 到 文件 中 。 


$ curl 'http://es:9200/properties/_mapping/property' > 
property.txt 


然后 编辑 property .txt 的 如 下 代码 。 


"location":{"properties":{"lat":{"type":"double"}, "lon":{"type":"d 
ouble"}}} 


将 该 行 的 代码 修改 为 如 下 代码 。 


"location": {"type": "geo_point"} 


另外， 我 们 还 删除 了 文件 尾部 的 {"properties": 
{"mappings": and two }}。 对 该 文件 的 修改 到 此 为 止 。 现 在 可 
以 按 如 下 代码 删除 旧 类 型 ， 使 用 指定 的 模式 创建 新 类 型 。 


$ curl -XDELETE 'http://es:9200/properties' 


$ curl -XPUT 'http://es:9200/properties' 


$ curl -XPUT 'http://es:9200/properties/_mapping/property' --data 


@property.txt 


现在 可 以 再 次 运行 该 和 扑 虫 ， 并 且 可 以 重新 运行 本 方 前面 的 curl 


命令 ， 此 时 将 会 得 到 按照 距离 排序 的 结果 。 我 们 的 搜索 返回 了 房产 信 
息 的 JSON， 额 外 包含 了 一 个 sort 字段 ， 该 字段 的 值 是 到 搜索 点 的 距 
离 ， 单 位 为 千 米 。 


9.2 “与 标准 Python 客户 端 建立 数据 库 接 口 


有 很 多 重要 的 数据 库 遵 从 Python 数据 库 API 规 范 2.0 版 本 ， 包 括 
MySQL ` PostgreSQL ` Oracle ` Microsoft SQL Server 和 SQLite。 它 们 
的 驱动 一 般 都 比较 复杂 且 久 经 考验 ， 如 果 为 Twisted 重 新 实现 的 话 则 是 
巨大 的 浪费 。 人 人们 可 以 在 Twisted 应 用 中 使 用 这 些 数据 库 客户 端 ， 比 如 
在 Scrapy 使 用 twisted.enterprise.adbapi 库 。 我 们 将 使 用 
MySQL 作 为 示例 演示 其 使 用 ， 不 过 对 于 任何 其 他 兼容 的 数据 库 来 说 ， 
也 可 以 应 用 相同 的 原则 。 


9.2.1 用 于 写 入 MySQL 的 管道 


MySQL 是 一 个 非常 强大 且 流 行 的 数据 库 。 我 们 将 编写 一 个 管道 ， 
将 item 写 入 到 其 中 。 我 们 已 经 在 虚拟 环境 中 运行 了 一 个 MySQL 实 例 。 
现在 只 需 使 用 MySQL 命 令 行 工 具 执 行 一 些 基本 管理 即 可 ， 同 样 该 工具 


也 已 经 在 开发 机 中 预 安装 好 了 ， 下 面 执行 如 下 操作 打开 MySQL 控 制 


丛生 


$ mysql -h mysql -uroot -ppass 


这 将 会 得 到 MySQL 的 提示 符 ， 即 mysq> ， 现 在 可 以 创建 一 个 简单 
的 数据 库 表 ， 其 中 包含 一 些 字 段 ， 如 下 所 示 。 


mysql> create database properties; 


mysql> use properties 


mysql> CREATE TABLE properties ( 


url varchar(100) NOT NULL, 


title varchar(30), 


price DOUBLE, 


description varchar(30), 


PRIMARY KEY (url) 


); 


mysql> SELECT * FROM properties LIMIT 10; 


Empty set (0.00 sec) 


ee 


非常 好 ， 现 在 拥有 了 一 个 MySQL 数 据 库 ， 以 及 一 张 名 为 


S 
了 。 请 保持 MySQL 的 控制 台 为 开局 状态 ， 因 为 之 后 还 会 回来 检查 
正确 插入 了 值 。 如 果 想 退出 控制 人 台 ， 只 需要 输入 exit 即 可 。 


在 本 节 ， 我 们 将 会 向 MySQL 数 据 库 中 插入 房产 信息 。 如 果 你 想 擦 除 它 
们 ， 可 以 使 用 如 下 命令 | 


mysql> DELETE FROM properties; 


我 们 将 使 用 Python 的 MySQL 客 户 端 。 我 们 还 将 安装 一 个 名 为 dj - 
database-url 的 小 工具 模块 ， 帮 助 我 们 解析 连接 的 URL (MATA 
我 们 在 卫 、 端 口 、 密 码 等 不 同 设置 中 切换 节省 时 间 ) 。 可 以 使 用 pip 
install dj-database-url MySQL-python 安装 这 两 个 库 ， 不 
过 我 们 已 经 在 开发 环境 中 安装 好 它们 了 “。 我 们 的 MySQL 管 道 非常 简 
单 ， 如 下 所 示 。 


from twisted.enterprise import adbapi 


class MysqlWriter(object): 


def _ init__(self, mysgl_url): 
conn_kwargs = Mysqlwriter.parse_mysql_url(mysql_url) 
self .dbpool adbapi.ConnectionPool('MySQLdb', 
charset='utf8', 
use_unicode=True, 
connect_timeout=5, 
**conn_kwargs) 


def close_spider(self, spider): 
self .dbpool.close() 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
try: 
yield self.dbpool.runInteraction(self.do_replace, item) 
except: 
print traceback.format_exc() 


defer.returnValue(item) 


@staticmethod 

def do_replace(tx, item): 
sql = """REPLACE INTO properties (url, title, price, 
description) VALUES (%s,%S,%S,%S)""" 


args = ( 
item["url"][0][:100], 
item["title"][0][:30], 
item["price"][0], 
item["description"][0].replace("\r\n", " ")[:30] 
) 


tx.execute(sql, args) 


本 示例 的 完整 代码 地 址 为 
ch09/properties/properties/pipeline/mysql.py ° 


本 质 上 ， 大 部 分 代码 仍然 是 模板 化 的 候 虫 代码 。 我 们 省 略 的 代码 
用 于 将 MYSQL_PIPELINE_URL 设置 中 包含 的 
mysql://user : pass@ip/database 格式 的 URL 解 析 为 独立 参 
数 。 在 爬虫 的 _init__ () 中 ,我们 将 这 些 参数 传 给 
adbapi.ConnectionPool() ， 使 用 adbapi 的 基础 功能 初始 化 
MySQL 连 接 池 。 第 一 个 参数 是 想 要 导入 的 模块 名 称 。 在 该 MySQL 示 
例 中 ， 为 MySQLdb 。 我 们 还 为 MySQL 客 户 端 设 置 了 一 些 额 外 的 参 
数 ， 用 于 处 理 Unicode 和 超时 。 所 有 这 些 参数 会 在 每 次 adbapi 需要 打 
开 新 连接 时 ， 前 往 底 层 的 MySQLdb ,connect() 2° 4G HHA 
时 ， 我 们 为 该 连接 池 调 用 close( ) 方法 。 


我 们 的 process_item( ) 方法 实际 上 包装 了 
dbpool.runInteraction()。 该 方法 将 稍 后 调用 的 回调 方法 放 入 
队列 ， 当 来 自 连 接 池 的 某 个 连接 的 Transaction 对 象 变 为 可 用 时 ， 
调用 该 回调 方法 。Transaction 对 象 的 API 与 DB-API 游 标 相 似 。 在 
本 例 中 ， 回 调 方法 为 do_replace() ， 该 方法 在 后 面 几 行 进行 了 定 
义 。@staticmethod 意味 着 该 方法 指 癌 的 是 类 ， 而 不 是 具体 的 类 实 
例 ， 因 此 ， 可 以 省 略 平时 使 用 的 selLf 参数 。 当 不 使 用 任何 成 员 时 ， 
将 方法 静态 化 是 个 好 习惯 ， 不 过 即使 忘记 这 么 做 ， 也 没有 问题 。 该 方 
法 准备 了 一 个 SQL 字 符 串 和 几 个 参数 ， 调 用 Transaction 的 
execute() 方法 执行 插入 。 我 们 的 SQL 语 句 使 用 了 REPLACE INTO 
来 蔡 换 已 经 存在 的 条 目 ， 而 不 是 更 常见 的 INSERT INTO ， 原 因 是 如 
果 条 目 已 经 存在 ， 可 以 使 用 相同 的 主键 。 在 本 例 中 这 种 方式 非常 便 
捷 。 如 林 想 使 用 SQL 返回 数据 ， 如 SELECT 语句 ， 可 以 使 用 


dbpool.runQuery() 。 如 果 想 要 修改 默认 游标 ， 可 以 通过 设置 
adbapi.ConnectionPool() 的 cursorclass 参数 来 实现 ， 比 如 
设置 cursorclass=MySQLdb ,cursors,.DictCursor ， 可 以 计数 


据 获 取 更 加 便捷 。 


要 想 使 用 该 管道 ， 需 要 在 settings .py 文件 的 
ITEM_PIPELINES 字典 中 添加 它 ， 另 外 还 需要 设置 
MYSQL_PIPELINE_URL 属性 。 


ITEM_PIPELINES = { ... 
'properties.pipelines.mysql.MysqlWriter': 700, 


MYSQL_PIPELINE_URL = 'mysql://root:pass@mysql/properties' 


执行 如 下 命令 。 


scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


| 1006 | 


Henne nee ee nsss Sias He eeen Saan e t---------- 
-+ 

| url | title | price | description 

Hane eee ee ee ----e- Te Ps +---------- 
-+ 

| http://7...0.html | Set Unique Family Well | 334.39 | website c 


| http://...1.html | Belsize Marylebone Shopp | 388.03 | features 


| http://...2.html | Bathroom Fully Jubilee S | 365.85 | vibrant 
own 


| http://...3.html | Residential Brentford Ot | 238.71 | go court 


4 rows in set (0.00 sec) 


延 时 和 吞吐 量 等 性 能 和 之 前 保持 相同 ， 相 当 不 错 。 


9.3 ”使 用 Twisted 专 用 客户 端 建立 服务 接口 


到 目前 为 止 ， 我 们 看 到 了 如 何 通过 tred 使 用 类 REST API ° 
Scrapy 还 可 以 和 许多 其 他 使 用 Twisted 专 用 客户 端的 服务 建立 接口 。 比 
如 ， 我 们 想 要 与 MongoDB 建 立 接 口 ， 当 搜索 "MongoDB Python" 时 ， 将 
会 得 到 PyMongo ， 该 库 是 阻塞 /同步 的 ， 不 能 和 Twisted 一 起 使 用 ， 除 
非 使 用 后 续 小 节 中 的 方法 ， 在 管道 中 描述 线程 ， 处 理 阻 塞 操 作 。 如 果 
搜索 "MongoDB Twisted Python"， 将 会 得 到 txmongo ， 该 库 可 以 在 
Twisted 和 Scrapy 中 完美 运行 。 通 第 情况 下 ，Twisted 客 户 端 背后 的 社区 
都 很 小 ， 但 相 比 自行 编写 客户 端 ， 这 仍然 是 一 个 更 好 的 选择 。 我 们 将 
使 用 一 个 类 似 的 Twisted 专 用 客户 端 作为 接口 ， 处 理 Redis 键 值 对 存储 。 


9.3.1 用 于 读 写 Redis 的 管道 


Google Geocoding API 是 按照 IP 进 行 限制 的 。 我 们 可 以 利用 多 个 IP 

(例如 使 用 多 台 服 务 器 ) 进行 缓解 ， 此 时 需要 避免 重复 请 求 其 他 机 器 

上 已 经 完成 地 理 编码 的 地 址 。 这 种 情况 也 适用 于 之 前 运行 中 曾 见 到 过 
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请 与 API 供 应 商 沟通 ， 确 保 在 他 们 的 策略 下 这 种 做 法 是 可 行 的 。 比 
如 ， 你 可 能 必须 每 隔 几 分 钟 /小 时 就 要 丢弃 掉 缓 存 记录 ， 或 者 根本 不 允许 缓 2 


我 们 可 以 使 用 Redis 的 键 值 对 缓存 ， 从 本 质 上 说 ， 它 是 一 个 分 布 式 
的 字典 。 我 们 已 经 在 vagrant 环 境 中 运行 了 一 个 Redis 实 例 ， 可 以 使 用 
redis-cli 命令 ， 从 开发 机 连接 它 并 执行 基本 操作 。 


$ redis-cli -h redis 


redis:6379> info keyspace 


# Keyspace 


redis:6379> set key value 


redis:6379> info keyspace 


# Keyspace 


db0: keys=1, expires=0,avg_tt1=0 


redis:6379> FLUSHALL 


redis:6379> info keyspace 


# Keyspace 


redis:6379> exit 


通过 Google 搜 索 "Redis Twisted"， 我 们 找到 了 txredisapI 库 。 
其 本 质 区 别 是 它 不 再 是 同步 Python 库 的 包装 ， 而 是 适用 于 Twisted 的 
库 ， 它 使 用 reactor .connectTCP( ) 连接 Redis、 实 现 Twisted 协 议 


等 。 使 用 该 库 的 方式 与 其 他 库 类 似 ， 不 过 在 Twisted 应 用 中 使 用 它 时 ， 
其 效率 肯定 会 更 高 一 些 。 我 们 在 安装 它 时 可 以 再 附带 一 个 工具 库 一 一 
dj_redis_url ， 该 工具 库 用 于 解析 Redis 配 置 URL， 我 们 可 以 使 用 
pip 进行 安装 (sudo pip install txredisapi 
dj_redis_url) ， 和 往常 一 样 ， 在 我 们 的 开发 机 中 也 已 经 预先 安装 
sp YT Ee 


可 以 按 如 下 代码 初始 化 RedisCache 。 


from txredisapi import lazyConnectionPool 
class RedisCache(object): 


def _ init__(self, crawler, redis_url, redis_nm): 
self.redis_ url = redis_url 
self.redis_ nm = redis_nm 


args = RedisCache.parse_redis_url(redis_url) 
self.connection = lazyConnectionPool(connectTimeout=5, 
replyTimeout=5, 
**args) 


crawler.signals.connect( 
self .item_scraped, signal=signals.item_scraped) 


该 管道 非常 简单 。 为 了 连接 Redis 服 务 器 ， 我 们 需要 主机 地 址 、 端 
口 等 参数 ， 由 于 这 文 些 参数 是 以 URL 格 式 在 储 的 因此 需要 使 用 
parse_redis_url() 方法 解析 该 格式 (为 简洁 起 见 已 经 省 略 ) oN 
键 设置 前 级 作为 命名 空间 的 行为 非常 常见 ， 在 本 例 中 ， 我 们 将 其 存储 
在 redis_nm 中 。 然 后 ， 使 用 txredisapi 的 
lazyConnectionPool() ， 打 开 到 服务 器 的 连接 。 


最 后 一 行使 用 了 一 个 很 有 意思 的 函数 。 我 们 的 目的 是 将 地 理 编码 
管道 与 该 管道 包装 起 来 。 如 果 在 Redis 中 没有 某 个 值 ， 我 们 将 不 会 设置 


该 值 ， 我 们 的 地 理 编码 管道 将 像 之 前 那样 使 用 API 对 地 址 进行 地 理 编 
码 。 在 该 操作 完成 之 后 ， 需 要 有 一 种 方式 在 Redis 中 缓存 这 些 键 值 对 ， 
在 这 里 是 通过 连接 到 signals.item_scraped 信号 的 方式 实现 的 。 
我 们 定义 的 回调 (item_scraped() 方法 ， 将 很 快 看 到 ) 在 非常 靠 
后 的 位 置 被 调用 ， 此 时 坐标 位 置 将 会 被 设置 。 


本 示例 的 完整 代码 位 于 
ch09/properties/properties/pipelines/redis.py ° 


我 们 通过 查找 和 记录 每 个 Item HAL, PREP ST SEA fal 
单 性 。 这 对 Redis 来 说 是 很 有 意义 的 ， 因 为 它 经 党 运行 在 同一 个 服务 器 
当中 ， 这 使 得 它 运 行 速 度 非常 快 。 如 果 不 是 这 种 情况 ， 那 么 可 能 需要 
添加 一 个 基于 字典 的 缓存 ， 与 我 们 在 地 理 编码 管道 中 的 实现 类 似 。 下 
面 是 处 理 传 入 的 Item 的 方法 。 


@defer.inlineCallbacks 

def process_item(self, item, spider): 
address = item["address"]|[0] 
key = self.redis_nm + ":" + address 
value = yield self.connection.get(key) 


if value: 
item["location"] = json.loads(value) 
defer.returnValue(item) 


和 大 家 的 期 望 相同 。 我 们 得 到 了 地 址 ， 为 其 添加 前 级 ， 然 后 使 用 
txredisapi connection 的 get( ) 方法 在 Redis 中 查询 。 我 们 在 


Redis 中 存储 的 值 是 JSON 编 码 的 对 象 。 如 果 值 已 经 设 定 ， 则 使 用 JSON 
对 其 进行 解码 ， 并 将 其 设 为 坐标 位 置 。 


当 一 个 Item 到 达 所 有 管道 的 结尾 时 ， 我 们 重新 捕获 它 ， 确 保存 
储 到 Redis 的 位 置 值 当中 。 下 面 是 实现 代码 。 


from txredisapi import ConnectionError 


def item_scraped(self, item, spider): 
try: 
location = item["location" | 
value = json.dumps(location, ensure_ascii=False) 
except KeyError: 
return 


address = item["address"][0] 

key = self.redis_nm + ":" + address 

quiet = lambda failure: failure.trap(ConnectionError) 
return self.connection.set(key, value) .addErrback( quiet ) 


这 里 同样 没有 什么 惊喜 。 如 果 我 们 找到 一 个 位 置 ， 束 可 以 得 到 地 
址 ， 为 其 添加 前 级 ， 并 使 用 它们 作为 键 值 对 ， 用 于 txredisapi 连接 
的 Set( ) 方法 。 你 会 发 现 该 男 数 没有 使 用 
@defer.inlineCallbacks ， 这 是 因为 在 处 理 
Signals.item_scraped 时 并 不 支持 该 装饰 句 。 这 就 意味 着 无 法 再 
对 connection.set() 使 用 非常 便捷 的 yield 操作 ， 不 过 我 们 可 以 
做 的 工作 是 返回 延迟 操作 ，Scrapy 可 以 用 它 串 联 任何 未 来 的 信号 进行 
监听 。 无 论 何 种 情况 ， 如 果 到 Redis 的 连接 无 法 执行 
connection.set() ， 束 会 抛 出 一 个 异常 。 可 以 通过 添加 目 定 义 错 
误 处 理 到 connection.set() 返回 的 延迟 操作 中 ， 静 默 忽略 该 异 
常 。 在 该 错误 处 理 中 ， 我 们 将 失败 作为 参数 传递 ， 并 告知 它们 对 任何 


ConnectionError 执行 trap( ) 操作 。 这 是 Twisted 的 延迟 操作 APTI 
的 一 个 非常 好 用 的 功能 。 通 过 在 预期 的 异常 中 使 用 trap( ) ， 我 们 能 
够 以 紧 竣 的 方式 静默 忽略 它们 。 


为 了 启用 该 管道 ， 我 们 所 需 做 的 就 是 将 其 添加 到 
ITEM_PIPELINES ae 并 在 settings .py 文件 中 提供 一 个 
REDIS_PIPELINE_URL 。 为 该 管道 设置 一 个 比 地 理 编码 管道 更 小 的 
优先 级 值 非常 重要 ， 人 否则 其 运行 就 会 太 迟 ， 无 法 起 到 作用 。 


ITEM_PIPELINES = { ... 
'properties.pipelines.redis.RedisCache': 300, 
'properties.pipelines.geo.GeoPipeline': 400, 


REDIS PIPELINE URL = 'redis://redis:6379' 


我 们 可 以 像 平 时 那样 运行 该 候 虫 。 第 一 次 运行 将 会 和 之 前 类 似 ， 
不 过 接 下 来 的 每 次 运行 都 会 像 下 面 这 样 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=100 


INFO: Enabled item pipelines: TidyUp, RedisCache, GeoPipeline, 


MysqlwWriter, EsWriter 


Scraped... 0.0 items/s, avg latency: 0.00 s, time in pipelines: 
0.00 s 


Scraped... 21.2 items/s, avg latency: 0.78 s, time in pipelines: 
0.15 s 


Scraped... 24.2 items/s, avg latency: 0.82 s, time in pipelines: 
0.16 s 


INFO: Dumping Scrapy stats: {... 


"geo_pipeline/already_set': 106, 


"item_scraped_count': 106, 


sagan aa AllRedisCache 都 已 经 启用 ， 并 且 
RedisCache 会 首先 进行 。 另 外 ， 还 可 以 注意 到 
geo_ ee een set 统计 值 是 106。 这 些 是 GeoPipeline 从 
Redis 缓 存 中 找到 的 预先 填充 好 的 item， 并 且 它 们 都 不 需要 请 求 Google 
API 调 用 。 如 有 果 Redis 绥 存 为 空 ， 你 会 看 到 一 些 键 依 然 会 使 用 Google 
API 进 行 处 理 。 在 性 能 方面 ， 我 们 注意 到 GeoPipeline 引 发 的 初始 行为 
现在 没有 了 。 实 际 上 ， 由 于 目前 使 用 了 缓存 ， 因 此 绕 过 了 每 秒 5 个 请 求 
的 API 限 制 。 当 使 用 Redis 时 ， 还 应 当 考 虑 使 用 过 期 键 ， 使 系统 可 以 周 
期 性 地 刷新 缓存 数据 。 


9.4 为 CPU 密集 型 、 阻 塞 或 遗留 功能 建立 接口 


本 草 最 后 一 六 讨论 的 是 访问 大 多 数 非 Twisted 的 工作 。 尺 管 有 高 效 
的 异步 代码 所 带 来 的 巨大 收益 ， 但 为 Twisted 和 Scrapy 重 写 每 个 库 ， 既 
不 现实 也 不 可 行 。 使 用 Twisted 的 线程 池 和 
reactor.spawnProcess() 方法 ， 我 们 可 以 使 用 任何 Python 库 甚 至 
其 他 语言 编写 的 二 进 制 包 。 


9.4.1 处理 CPU 密 集 型 或 阻塞 操作 的 管道 


第 8 草 讲 到 ，reactor 对 于 简短 、 非 阻塞 的 任务 非常 理想 。 如 果 必 须 
要 执行 一 些 更 复杂 或 是 涉及 阻塞 的 事情 ， 该 各 么 做 昵 ? Twisted 提 供 了 
线程 池 ， 可 以 使 用 reactor .callInThread() API 调 用 ， 在 一 些 线 
程 中 执行 慢 操 作 ， 而 不 是 在 主线 程 中 执行 (Twisted 的 reactor) ° XW 
意味 着 reactor 会 持续 运行 其 处 理 过 程 ， 并 在 计算 发 生 时 响应 事件 。 请 
注意 ， 在 线程 池 中 的 处 理 不 是 线程 安全 的 。 这 瓯 是 说 当 你 使 用 全 局 状 
态 时 ， 又 会 出 现 多 线程 编程 中 所 有 的 传统 同步 问题 。 让 我 们 从 该 管道 
的 一 个 简单 版 本 起 步 ， 逐 渐 编 写 出 完整 的 代码 。 


class UsingBlocking(object): 
@defer.inlineCallbacks 
def process_item(self, item, spider): 
price = item["price"][0] 


out = defer.Deferred() 
reactor.callInThread(self._do_calculation, price, out) 
item["price"][0] = yield out 


defer.returnValue(item) 


def _do calculation(self, price, out): 
new_price = price + 1 
time.sleep(0.10) 
reactor.callFromThread(out.callback, new_price) 


在 前 面 的 管道 中 ， 我 们 看 到 了 实际 运行 的 基本 原 语 。 对 于 每 个 
Item ， 我 们 抽取 其 价格 ， 并 希望 使 用 _do_calculation( ) 方法 处 
理 它 。 该 方法 使 用 了 一 个 阻塞 操作 time .sleep()。 我 们 将 使 用 
reactor.callInThread() 调用 把 它 放 到 男 一 个 线程 中 运行 。 其 
中 ， 被 调用 的 函数 以 及 传 给 该 男 数 的 任意 数量 的 参数 将 会 作为 参数 。 
显然 ， 我 们 不 只 传递 了 price ， 还 创建 并 传递 了 一 个 名 为 out 的 延迟 
操作 。 当 _do。” calculation() 完成 计算 时 ， 我 们 将 使 用 out 回 调 返 
回 值 。 在 下 一 步 中 ， 我 们 对 这 个 延迟 操作 执行 了 yield 处 理 ， 并 为 价格 
设置 了 新 值 ， 最 后 运 回 Item 。 


f£_do_ calculation() 中 ,注意 到 有 一 个 简单 的 计算 一 一 价 
格 目 增 1， 然 后 是 100 毫 秒 的 睡眠 。 这 是 非常 多 的 时 间 ， 如 果 在 reactor 
线程 中 调用 ， 它 将 使 我 们 每 秒 处 理 的 页 数 无 法 超过 10 页 。 通 过 使 其 在 
其 他 线程 中 运行 ， 就 不 再 有 这 个 问题 了 。 任 务 将 会 在 线程 池 中 排队 ， 
等 待 出 现 可 用 的 线程 ， 一 旦 进入 线程 执行 ， 该 线程 区 将 睡眠 100 毫 秒 。 
最 后 一 步 是 触发 out 回调 。 正 常情 况 下 ， 可 以 使 用 
out.callback(new_price) ， 不 过 由 于 现在 处 于 另 一 个 线程 中 ， 
这 种 方法 不 再 安全 。 如 果 这 样 做 ， 会 导致 延迟 操作 的 代码 和 Scrapy 的 
功能 会 从 另 一 个 线程 调用 ， 迟 早 会 出 现 错误 的 数据 。 奉 代 方 案 是 使 用 
reactor.callFromThread(), ， 同 样 ， 也 是 将 函数 作为 参数 ， 并 
将 任意 数量 的 额外 参数 传 到 函数 中 。 该 函数 将 会 排队 ， 由 reactor 线 程 
调用 ;， 而 另 一 方面 ， 会 解除 process_item( ) 对 象 yield 操作 的 阻 
塞 ， 为 该 Item 恢复 Scrapy 操 作 。 


如 果 有 全 局 状态 (比如 计数 器 、 移 动 平 均值 等 ) 的 话 ， 那 么 在 
_do_calculation() 中 使 用 它们 会 发 生 什 么 呢 ? 例如 ， 我 们 添加 两 
个 变量 一 beta 和 delta ， 如 下 所 示 。 
class UsingBlocking(object): 

def _ init__(self): 

self.beta, self.delta = 0, 0 


def _do_calculation(self, price, out): 
self.beta += 1 


time.sleep(0.001) 


self.delta += 1 
new_price = price + self.beta - self.delta + 1 
assert abs(new_price-price-1) < 0.01 


time.sleep(0.10)... 


上 面 的 代码 存在 问题 ， 我 们 会 得 到 断言 错误 。 这 是 因为 如 果 一 个 
线程 在 self ,beta 和 self .delta 之 间 切 换 ， 而 男 一 个 线程 使 用 这 
HEbeta/delta 的 值 恢 复 计算 价格 ， 那 么 会 发 现 它 们 处 于 不 一 致 的 状 
A (beta 比 delta K) ， 因 此 ， 会 计算 出 错误 的 结果 。 短 暂 的 睡眠 
使 该 问题 更 容易 产生 ， 不 过 即便 没有 它 ， 竞 态 条 件 也 将 很 快 出 现 。 为 
了 避免 此 类 问题 发 生 ， 必 须 使 用 锁 ， 比 如 使 用 Python 的 
threading.RLock() 递归 锁 。 当 使 用 锁 时 ， 我 们 可 以 确信 不 会 存在 
两 个 线程 同时 执行 其 保护 的 临界 区 的 情况 。 


class UsingBlocking(object): 
def _ init__(self): 


self.lock = threading.RLock() 
def _do_calculation(self, price, out): 
with self.lock: 
self.beta += 1 


new_price = price + self.beta - self.delta + 1 


assert abs(new_price-price-1) < 0.01 ... 


前 面 的 代码 现在 是 正确 的 。 请 记 住 我 们 并 不 需要 保护 整 段 代码 ， 
只 需 窗 盖 全 局 状态 的 使 用 就 够 了 。 


本 示例 的 完整 代码 位 于 
ch09/properties/p  “roperties/pipelines/computation.py 


文件 中 。 


要 想 使 用 该 管道 ， 只 需 在 settings .py 文件 中 将 其 添加 到 
ITEM_PIPELINES 设置 即 可 ， 如 下 所 示 。 


ITEM_PIPELINES = { 


"properties.pipelines.computation.UsingBlocking': 500, 
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100 毫 秒 ， 不 过 我 们 惊喜 地 发 现 吞 吐 量 几乎 保持 不 变 ， 即 每 秒 25 个 item 
EE 


9.4.2 ”使 用 二 进 制 或 脚本 的 管道 


对 于 一 个 遗留 功能 来 说 ， 最 不 可 知 的 接口 就 是 独立 的 可 执行 程序 
或 脚本 。 它 可 能 需要 几 秒 钟 时 间 启 动 比如 从 数据 库 中 加 载 数 据 )， 
不 过 在 这 之 后 ， 它 可 能 会 在 一 人 小段 延 时 内 处 理 许多 值 。 即 使 对 于 这 种 


情况 ，Twisted 仍 然 能 够 履 盖 。 我 们 可 以 使 用 

reactor ,spawnProcess() API 以 及 相关 的 
protocol.ProcessProtocol 运行 任何 类 型 的 可 执行 程序 。 来 看 
一 个 例子 ， 该 示例 的 脚本 如 下 所 示 。 


#1/bin/bash 


trap "" SIGINT 


sleep 3 


while read line 


do 


# 4 per second 


sleep 0.25 


awk "BEGIN {print 1.20 * $line}" 


done 


这 是 一 个 简单 的 bash 脚 本 。 当 它 局 动 后 ， 会 禁用 Ctrl + C。 这 是 
为 了 解决 Ctrl + C 派生 到 子 进 程 后 过 早 终止 ， 导 致 Scrapy 目 身 无 法 停 
止 ， 无 限 等 竺 子 进程 返回 结果 的 系统 特性 。 药 用 Ctrl + C 后 ， 脚 本 将 
会 睡眠 3 秒 钟 ， 以 模拟 局 动 时 间 。 人 然后 脚本 会 从 输入 中 读 取 行 ， 等 符 


250 毫 秒 ， 再 返回 结 采 价格 ， 该 计算 使 用 Linux 的 awk 命令 将 原 值 乘 以 
1.2 倍 。 该 脚本 的 最 大 吞吐 量 是 每 秒 4 个 Item。 可 以 使 用 一 个 简短 的 会 
话 对 其 进行 测试 ， 如 下 所 示 。 


$ properties/pipelines/legacy.sh 


12 <- If you type this quickly you will wait ~3 seconds to get 
results 


14.40 


13 <- For further numbers you will notice just a slight delay 


15.60 


由 于 Ctrl + C 被 禁用 ， 我 们 必须 使 用 Ctrl + DD 终止 会 话 。 不 错 ! 那 
么 ， 我 们 要 如 何在 Scrapy 中 使 用 该 脚本 呢 ? 仍然 从 一 个 人 简化 的 版 本 起 
IE 0 


class CommandSlot(protocol.ProcessProtocol): 
def _ init__(self, args): 
self. queue = [] 
reactor.spawnProcess(self, args[0], args) 


def legacy_calculate(self, price): 
d = defer.Deferred() 
self ._queue.append(d) 
self.transport.write("%f\n" % price) 
return d 


# Overriding from protocol.ProcessProtocol 
def outReceived(self, data): 
"""Called when new output is received""" 
self ._queue.pop(0).callback(float(data) ) 


class Pricing(object): 
def _ init__(self): 
self.slot = CommandSlot(['properties/pipelines/legacy.sh' ]) 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
item["price"][0] = yield 
self.slot.legacy_calculate(item["price"][0]) 
defer.returnValue(item) 


我 们 可 以 在 这 里 找到 名 为 CommandSlot 的 ProcessProtocol 
的 定义 ， 以 及 Pricing EX 7 init__() 中 ， 我 们 创建 了 新 的 
CommandSlot ， 其 构造 方法 初始 化 了 一 个 空 队列 ， 并 使 用 
reactor.spawnProcess() 启动 了 一 个 新 的 进程 。 该 调用 将 从 进程 
中 传输 和 接收 数据 的 ProcessProtocol 作为 第 一 个 参数 。 在 本 例 
中 ， 该 值 为 self ， 因 为 spawnProcess( ) 是 在 protocol 类 中 进行 
调用 的 。 第 二 个 参数 是 可 执行 程序 的 名 称 。 第 三 个 参数 args 将 该 二 
进 制程 序 的 所 有 命令 行 参数 作为 字符 串 列 表 保留 。 


在 管道 的 process_item( ) 中 ， 基 本 上 将 所 有 工作 都 委托 给 
CommandSlot 的 legacy_calculate( ) 方法 ， 它 将 返回 一 个 延迟 
操作 ， 并 执行 yield 操作 。legacy_calculate( ) 创建 了 一 个 延迟 
操作 ， 使 其 排队 ， 然 后 使 用 transport .write() 将 价格 写 入 到 进程 
当中 。transport 由 ProcessProtocol 提供 ， 用 于 让 我 们 和 进程 
进行 通信 。 无 论 我 们 何 时 从 进程 中 接收 到 数据 ， 都 会 调用 
outReceived() 。 通 过 延迟 操作 排队 ， 以 及 按 顺 序 处 理 的 shell 脚 
本 ， 我 们 可 以 从 队列 中 只 弹出 最 旧 的 延迟 操作 ， 使 用 接收 到 的 值 触 发 


到 此 为 止 。 我 们 可 以 通过 在 ITEM_PIPELINES 中 添加 它 的 方 
式 ， 启 动 该 管道 ， 并 像 平时 那样 运行 


ITEM_PIPELINES = {... 


"properties.pipelines.legacy.Pricing': 600, 
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吐 量 ， 我 们 所 能 做 的 束 是 对 管道 进行 一 些 修 改 ， 允 许 该 类 并 行 运行 多 
A 


class Pricing(object): 
def _ init__(self): 
self.concurrency = 16 
args = ['properties/pipelines/legacy.sh' ] 
self.slots = [CommandSlot(args) 
for i in xrange(self.concurrency) ] 
self.rr = 0 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
slot = self.slots[self.rr] 
self.rr = (self.rr + 1) % self.concurrency 
item["price"][0] = yield 
slot.legacy_calculate(item["price"][0]) 
defer.returnValue(item) 


我 们 将 其 修改 为 局 动 16 个 实例 ， 并 以 轮 询 的 方式 为 每 个 实例 发 送 
价格 。 该 管道 现在 提供 了 每 秒 16x4 = 64 个 item 的 吞吐 量 。 我 们 可 以 通 
过 一 个 快速 聆 取 来 确认 ， 如 下 所 示 。 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


Scraped... 0.0 items/s, avg latency: 0.00 s and avg time in 
pipelines: 


0.00 s 


Scraped... 21.0 items/s, avg latency: 2.20 s and avg time in 
pipelines: 


1.48 s 


Scraped... 24.2 items/s, avg latency: 1.16 s and avg time in 
pipelines: 


0.52 s 


延 时 和 预期 一 样 ， 增 长 到 250 坚 秒 ， 不 过 吞吐 量 仍然 是 每 秒 25 个 


item ° 


请 注意 ， 前 面 的 方法 中 使 用 了 transport ,write() 将 shell 脚 本 
输入 中 的 所 有 价格 排 入 队列 。 对 于 你 的 应 用 而 言 ， 这 种 方式 可 能 合 
适 ， 也 可 能 不 合适 ， 尤 其 是 当 它 使 用 了 更 多 的 数据 而 不 仅仅 是 几 个 数 
字 时 。 本 例 完整 代码 会 将 所 有 值 和 回调 排 入 队列 ， 并 且 只 有 在 前 一 次 
结果 被 接收 后 ， 才 会 向 脚本 发 送 新 值 。 你 会 发 现 这 种 方式 对 你 的 遗留 
应 用 更 加 友好 ， 不 过 也 增添 了 一 些 复杂 度 。 


9.5 ”本 章 小 结 


本 章 讲解 了 一 些 复杂 的 Scrapy 管 道 。 到 目前 为 止 ， 我 们 已 经 学 习 
了 Twisted 编 程 方面 所 有 可 能 需要 的 内 容 ， 并 且 知 道 了 如 何 实现 进程 、 
使 用 Item 进 程 管道 等 复杂 功能 。 我 们 通过 在 延 时 和 吞吐 量 方面 添加 更 
多 管道 阶段 ， 看 到 了 性 能 是 如 何 变化 的 。 通 常情 况 下 ， 延 时 和 吞吐 量 
被 认为 是 成 反比 的 ， 不 过 这 是 建立 在 常数 并 发 的 假设 下 的 (例如 线程 
的 数 全 有限) 。 在 我 们 的 例子 中 ， 我 们 从 N=S.T=25.0.77 兰 19 开 
始 ， 在 添加 管道 后 ， 最 终 达 到 N = 25.3.33 三 83， 并 且 没 有 任何 性 能 问 
题 。 这 瓯 是 Twisted 编 程 的 力量 ! 现在 我 们 可 以 进入 第 10 章 ， 使 Scrapy 
的 性 能 更 加 完美 。 


B10 理解 Scrapy 性 能 


通常 情况 下 ， 性 能 很 容易 出 现 问 题 。 对 于 Scrapy 来 说 ， 性 能 束 不 
只 是 容易 出 现 问 题 了 ， 而 是 几乎 肯定 会 出 现 ， 因 为 它 有 很 多 有 人 迟 常理 
的 行为 。 除 非 你 对 Scrapy 内 部 有 非常 好 的 理解 ， 否 则 你 会 发 现 ， 即 使 
非常 努力 地 优化 性 能 ， 也 很 可 能 得 不 到 收益 。 这 古 使 用 高 性 能 、 低 延 
迟 以 及 融 并 发 环境 复杂 性 的 一 部 分 。 在 优化 瓶 贷 性 能 时 ， 阿 姆 达尔 定 
律 仍然 是 正确 的 ， 不 过 除非 你 能 指明 真正 的 瓶 宽 所 在 ， 否 则 在 系统 其 
他 任何 部 分 的 优化 都 无 法 增长 每 秒 能 够 抓 取 的 item 数 量 (APL) 。 
我 们 可 以 从 Goldratt 博 士 经 典 的 The Goal 一 书 中 获得 更 多 的 感知 ， 这 本 
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相同 的 理念 同样 也 适用 于 软件 。 本 章 将 帮助 你 找 出 Scrapy 配 置 中 的 瓶 
有 贷 ， 以 及 避免 出 现 明显 的 错误 。 


请 注意 本 章 是 一 个 进 阶 章 太 ， 其 中 会 涉及 一 些 数学 知识 。 计 算 将 
会 比较 简单， 并 且 会 附 有 用 于 展示 相同 概念 的 图 表 。 如 果 你 不 喜欢 数 
需 忽略 掉 公 式 即 可 ， 你 仍然 能 够 获得 Scrapy 性 能 如 何 工作 的 重 


10.1 Scrapy3 引 擎 一 一 一 种 直观 方式 


并 行 系统 看 起 来 与 管道 系统 很 相似 。 在 计算 机 科学 中 ， 我 们 使 用 
队列 符号 来 表示 队列 以 及 处 理 中 的 元 素 ( 见 图 10.1 左 侧 ) 。 队 列 系统 
的 基本 法 则 是 利 特 尔 法 则 ， 该 法 则 认为 在 稳定 状态 下 ， 队 列 系统 中 的 


TAME (N) 等 于 系统 吞吐 量 (T) 乘 以 总 排队 /服务 时 间 (S) ， 即 
N = 工 .S。 另 外 两 种 形式 是 : T= N/S 以 及 S = N/T， 在 计算 中 同样 有 


用 。 
队列 理论 管道 
al 二 上 IR 
E iin ig 
N=8 R N=16 R N=32 R 
利 特 而 法 则 : N =T S S=.25 s S=.25 s S=.25 s 
T=32 R/s T=64 R/s T=128 R/s 


图 10.1 利 特 尔 法 则 、 队 列 系统 以 及 管道 


在 管道 的 几何 形状 中 也 有 相似 的 法 则 〈 见 图 10.1 右 侧 ) 。 管 道 容 
= (V) 等 于 管道 长 度 L 乘 以 横 截 面 面 积 (A) ， 即 V=L'A。 


如 果 我 们 想象 长 度 表示 服务 时 间 (L~S) ， 容 量 表示 处 理 系 统 的 
TRAE (V~N) ， 横 截面 面积 表示 吞吐 量 (A~N) ， 那 么 利 特 尔 
法 则 和 容量 公式 实际 是 相同 的 事情 。 


这 个 类 比 有 道理 吗 ? 答案 是 差不多 。 如 果 我 们 将 工作 单位 想象 为 小 滴 
液体 ， 以 恒定 速率 在 管道 内 部 移动 ， 那 么 L 一 S 绝 对 有 意义 ， 因 为 管道 越 
长 ， 水 滴 移 动 花费 的 时 间 越 多 。V~N 同 样 有 意义 ， 因 为 管道 越 大 ， 能 够 
容纳 的 水 滴 越 多 。 烦 人 的 是 ， 我 们 还 可 以 通过 施加 更 大 压力 的 方式 压 入 更 
多 水 滴 。A~I 是 不 太 满 足 类 比 的 一 点 。 在 管道 中 ， 实 际 吞 吐 量 ， 即 每 秒 


进出 管道 的 水 滴 数量 ， 被 称 为 “体积 流量 "， 除 非 满足 特定 条 件 GLUO) ， 
否则 其 与 A? 成 正比 ， 而 不 是 A。 这 是 因为 更 宽 的 管道 不 只 意味 着 有 更 多 的 
液体 流出 ， 还 会 使 液体 流动 更 快 ， 因 为 管 壁 之 间 存 在 更 大 的 空间 。 不 过 为 
了 本 章 的 学 习 ， 我 们 可 以 忽略 这 些 技术 细节 ， 而 是 假设 生活 在 一 个 理想 的 
世界 中 ， 在 这 里 压力 和 速度 都 是 常量 ， 并 且 乔 吐 量 与 横 截面 面积 直接 成 正 


利 特 尔 法 则 和 这 个 简单 的 体积 公式 非常 相似 ， 这 就 使 得 该 “管道 模 
型 ”非常 直观 有 用 。 让 我 们 更 详细 地 看 一 下 图 10.1 中 的 示例 ( 右 侧 ) 。 
假设 管道 系统 表示 Scrapy 的 下 载 器 。 第 一 个 非常 “ 细 ” 的 下 载 器 ， 其 总 
体积 /并 发 级 别 N) 可 能 是 8 个 并 发 请 求 。 管 道 长 度 /延迟 (S) 对 于 一 
个 快速 的 网 站 来 说 ， 可 能 S=250ms。 在 给 定 N 和 S 时 ， 现 在 可 以 计算 处 
理 元 素 的 体积 / 否 吐 量 ， 每 秒 请 求 数 为 T=N/S=8/0.25=32。 


你 会 发 现 延迟 经 常 是 我 们 无 法 控制 的 ， 因 为 它 依赖 于 远 端 服务 器 
的 性 能 以 及 网 络 的 延迟 。 我 们 比较 容易 控制 的 是 下 载 器 中 并 发 (N) 
的 级 别 ， 可 以 将 其 从 8 增长 到 16 或 32 个 并 发 请 求 ， 即 10.1 图 中 的 第 二 个 
和 第 三 个 管道 。 对 于 常量 的 长 度 (超出 我 们 控制 范围 之 外 ) ， 可 以 通 
过 只 增加 横 截 面 面 积 的 方式 增长 体积 ， 也 就 是 说 增加 吞吐 量 ! 按照 利 
特 尔 法 则 ，16 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 为 T=N/S= 16/ 
0.25 = 64 个 ， 而 在 32 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 是 T=N / 
S = 32/0.25 = 128 个 。 太 好 了 ! 我 们 似乎 可 以 通过 增加 并 发 的 方式 ， 
使 系统 无 限 快 。 在 急于 得 出 这 样 的 结论 之 前 ， 还 需要 考虑 队列 系统 级 
联 的 影响 。 


10.1.1 级 联 队 列 系统 


当 将 不 同 横 截 面 面 积 /吞吐 量 的 几 个 管道 依次 连接 起 来 时 ， 可 以 很 
直观 地 理解 整个 系统 的 流量 将 由 最 罕 的 〈 最 小 吞吐 量 : T) 管道 所 限 
制 〈 见 图 10.2) ° 


图 10.2 ”不同 容量 的 级 联 队 列 系统 


你 还 可 以 观察 到 最 罕 管 道 “ 即 瓶颈 ) 的 位 置 ， 决 定 了 其 他 管道 是 
如 何 “ 填 满 * 的 。 如 有 果 考 虑 到 与 系统 内 存 需 求 相关 的 填充 ， 就 会 意识 到 
瓶颈 的 位 置 是 非 党 重要 的 。 我 们 最 好 通过 配置 保持 管道 充满 ， 且 单个 
工作 单元 的 花 销 最 少 。 在 Scrapy 中 ， 一 个 工作 单元 MERAM) 
主要 是 由 下 载 器 前 的 URL 〈 几 个 字 节 ) 以 及 下 载 后 的 URL 加 上 服务 器 
响应 ( 较 大 ) 组 成 。 


10.1.2 ”定义 瓶颈 

使 用 管道 系统 作为 类 比 的 一 个 非常 重要 的 好 处 是 ， 它 在 定义 瓶颈 
的 过 程 中 更 加 直观 。 如 果 观 察 图 10.2 就 会 发 现 ,，“ 瓶 贷 ”前 的 所 有 地 方 
都 是 满 的 ， 而 之 后 的 所 有 地 方 都 不 是 。 


好 请 轧 是 ， 在 大 多 数 系统 中 ， 可 以 相对 容易 地 使 用 系统 度量 监控 
队列 系统 是 如 何 填 满 的 。 通 过 仔细 检查 Scrapy 的 队列 ， 我 们 可 以 了 解 
瓶颈 在 什么 地 方 ， 如 果 发 现 不 在 下 载 右 中 ， 则 可 以 调整 设置 让 其 变 为 
下 载 锅 。 没 有 改善 瓶 祷 的 任何 改进 都 不 会 市 来 吞吐 量 的 收益 。 如 采 修 
改 系统 其 他 部 分 ， 只 会 让 事情 变 得 更 精 ， 很 有 可 能 将 瓶颈 转移 到 别 的 
地 方 。 这 个 感觉 有 点 像 退 尾 ， 可 能 需要 很 长 时 间 ， 并 且 会 令 你 感到 绝 
望 。 你 必须 遵循 系统 方法 ， 定 义 瓶 颈 ， 并 且 需 要 在 修改 任何 代码 或 配 
置 之 前 , “知道 锤子 应 该 击 中 哪里 ”。 你 在 大 部 分 例子 中 (包括 本 书 的 
大 多 数 例子 ) 可 以 看 到 ， 答 有 贷 不 是 总 在 人 们 期 望 的 地 方 出 现 。 


10.1.3 ”Scrapy 性 能 模型 


让 我 们 回 到 Scrapy， 详 细 看 一 下 其 性 能 模型 〈 见 图 10.3) ° 
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图 10.3 ”Scrapy 性 能 模型 


Scrapy 包 含 如 下 组 成 部 分 。 


。 调度 器 : 在 这 里 ， 多 个 请 求 会 排队 等 待 下 载 器 处 理 。 它 们 主要 由 
URL 组 成 ， 因 此 会 十 分 紧 旋 ， 这 束 意 味 着 即使 拥有 大 量 URL 也 不 
会 对 系统 有 很 大 伤害 ， 并 且 可 以 让 我 们 在 传 入 不 规则 请 求 流 的 情 
况 下 能 够 充分 利用 下 载 右 。 

。 限 流 器 : 这 是 抓 取 过 程 (大 储 水 池 ) 反馈 的 安全 阁 ， 如 果 正 在 执 
行 的 啊 应 的 总 计 大 小 超过 5MB， 那 么 它 会 让 前 往 下 载 右 的 后 续 请 
求 停止 。 这 可 能 会 导致 不 可 预料 的 性 能 起 伏 。 


。 FERA: 这 是 Scrapy 关 于 性 能 最 重要 的 组 成 部 分 。 它 对 能 够 并 行 
执行 的 请 求 的 数量 有 着 复杂 的 限制 。 其 延迟 〈 管 道 长 度 ) 等 于 远 
程 服 务 器 响应 的 时 间 ， 加 上 所 有 网 络 /操作 系统 以 及 
Python/Twisted 的 延迟 。 我 们 可 以 调整 并 行 请 求 的 数量 ， 不 过 通常 
情况 下 ， 我 们 几乎 无 法 控制 延迟 。 下 载 器 的 容量 
CONCURRENT_REQUESTS* 设置 限制 ， 我 们 将 会 很 快 看 到 。 
疏 虫 ， 这 是 抓 取 过 程 中 将 响应 转 为 Item 和 后 续 请 求 的 部 分 。 同 
时 这 也 是 我 们 编写 的 部 分 ， 通 常情 况 下 ， 只 要 遵照 规则 ， 它 们 就 
不 会 是 性 能 瓶颈 。 

Item 管道 ， 这 是 我 们 编写 的 代码 的 第 二 个 部 分 。 我 们 的 仆 虫 可 以 
对 每 个 请 求生 成 上 百 个 Item ， 同 一 时 刻 只 会 处 理 
CONCURRENT_ITEMS 个 。 该 值 十 分 重要 ， 因 为 假设 你 在 管道 中 
要 处 理 数据 库 访问 ， 那 么 使 用 默认 值 (100) 就 可 能 会 过 高 ， 从 而 
在 无 意 间 拖 垮 数据 库 。 


疏 虫 和 管道 都 应 该 使 用 异步 代码 ， 并 且 在 必要 时 引发 更 多 的 延 
迟 ， 但 不 应 因此 成 为 瓶 贷 。 极 少 情况 下 ， 我 们 的 谎 虫 /管道 会 处 理 非常 
迷 重 的 事情 。 如 采 发 生 此 种 情况 ， 那 么 服务 万 的 CPU 可 能 会 成 为 瓶 
Bi ° 


10.2 ”使 用 telnet 获 得 组 件 利用 率 


想 要 理解 Request/Item 流 是 如 何 通过 管道 的 ， 我 们 不 会 真得 去 
测量 流量 (尽管 这 可 能 会 是 一 个 很 棱 的 功能 ) ， 而 是 使 用 更 容易 的 方 


式 测量 Scrapy 的 每 个 处 理 阶 段 中 存在 多 少 流体 ， 即 
Request/Response/Item ° 


我 们 可 以 通过 Scrapy 运 行 的 Telnet 服 务 获 取 性 能 信息 。 首 移 ， 通 过 
使 用 telnet 命 令 连接 到 6023 端口 。 然 后 ， 将 会 在 Scrapy 中 得 到 一 个 
Python 提示 符 。 需 要 小 心 的 是 ， 如 果 你 在 这 里 执行 了 某 些 阻塞 操作 ， 
例如 time.sleep() ， 它 将 会 中 止 朴 虫 功能 。 内 置 的 est( ) 函数 可 
以 打印 出 一 些 感 兴趣 的 度量 。 其 中 一 些 或 者 很 专用 ， 或 者 能 够 从 儿 个 
核心 度量 推 邮 出 来 。 在 本 章 剩余 部 分 只 会 展示 后 者 。 让 我 们 从 一 个 示 
例 运行 中 了 解 它们 。 当 运行 仆 虫 时 ， 可 以 在 开发 机 中 打开 第 二 个 终 
端 ， 通 过 telnet 命 令 连 接 6023 端口 ， 并 运行 est()。 


在 第 一 个 终端 中 ， 运 行 如 下 代码 。 


$ pwd 


/root/book/ch10/speed 


$ 1s 


scrapy.cfg speed 


$ scrapy crawl speed -s SPEED PIPELINE ASYNC DELAY=1 


INFO: Scrapy 1.0.3 started (bot: speed) 


管 sc 


现在 先 不 用 管 scrapy crawl speed 是 什么 ， 以 及 其 参数 表示 
什么 。 本 章 后 续 部 分 会 详细 解释 这 些 。 现 在 ， 在 第 二 个 终端 上 ， 运 行 
如 下 命令 


$ telnet localhost 6023 


>>> est() 
len(engine. downloader .active) 


len(engine.slot.scheduler .mqs) 


len(engine.scraper.slot.active) 


engine.scraper.slot.active_size : 117760 


engine.scraper.slot.itemproc_size 


然后 在 第 二 个 终端 按 下 Ctrl + DD 退出 Telnet， 回 到 第 一 个 终端 ， 按 
下 Ctrl1+ C FEJE ° 


我 们 在 这 里 忽略 了 dqs 。 如 果 通 过 JOBDIR 设置 启用 了 持久 化 支持 的 
话 ， 还 会 得 到 非 零 的 dqs (len(engine.slot.scheduler.dqs) ) , 
你 需要 将 其 添加 到 mqs 的 大 小 中 ， 以 继续 后 续 分 析 。 


我 们 来 看 一 下 本 例 中 的 这 些 核心 度量 都 表示 什么 。mqs 表示 目前 
在 调度 器 中 还 有 很 多 等 待 (4475 个 请 求 ) 。 还 可 以 。 
len(engine.downloader .active) 表示 目前 有 16 个 请 求 正 在 下 
载 器 中 被 下 载 。 这 和 我 们 在 仆 虫 CONCURRENT_REQUESTS 设置 中 设 
定 的 值 相同 ， 所 以 此 处 非常 好 。 
len(engine.scraper.slot.active) 告知 我 们 正在 进行 抓 取 处 
理 的 响应 有 115 个 。 通 过 (engine.scraper.slot.active_size) 
， 我 们 知道 这 些 响 应 大 小 总 计 为 115kb。 在 这 些 响应 中 ， 有 105 个 Item 
此 时 正在 通过 管道 处 理 ， 可 以 从 
(engine.scraper.slot.itemproc_size) 看 出 来 ， 这 就 意味 着 
剩余 的 10 个 请 求 目 前 正在 爬虫 中 处 理 。 总 体 来 说 ， 我 们 可 以 看 出 瓶颈 
似乎 在 下 载 器 中 ， 在 其 之 前 的 工作 队列 (mas) 非常 庞大 ， 但 下 载 器 
已 经 满 负 蓓 利用 了 ; 而 在 其 之 后 ， 我 们 有 着 数量 很 高 但 又 比较 稳定 的 
任务 (可 以 通过 多 次 执行 est( ) 来 确认 此 项 ) ° 


我 们 感 兴 趣 的 另 一 个 信 ， aa WR, EMAKE EREA 
打印 的 信息 。 我 们 可 以 在 Telnet 中 ， 通 过 stats.get_stats() ， 以 
字典 的 形式 在 任何 时 间 访 问 它 ， 并 且 可 以 通过 p() 函数 打印 更 优雅 的 
格式 。 


$ p(stats.get_stats()) 


{'downloader/request_bytes': 558330, 


"item_scraped_count': 2485, 


..} 


对 我 们 来 说 ， 目 前 最 感 兴趣 的 度量 是 item_scraped_count , 
它 可 以 通过 stats.get_value('item_scraped_count') 直接 访 
问 。 该 度量 告知 我 们 到 目前 为 止 有 多 少 item 已 经 被 抓 取 ， 它 应 当 以 
系统 吞吐 量 (Item / 秒 ) 的 速率 增长 。 


10.3 ”基准 系统 


为 了 第 10 章 ， 我 编写 了 一 个 简单 的 基准 系统 ， 可 以 让 我 们 在 不 同 
场景 下 评估 性 能 。 该 系统 的 代码 比较 复杂 ， 你 可 以 在 
speed/spiders/speed.py 中 找到 它 ， 但 我 不 会 详细 讲解 该 代码 。 


该 系统 包含 如 下 功能 。 


我 们 的 Web 服 务 器 上 

http://localhost :9312/benchmark/... 目录 的 处 理 器 。 
可 以 通过 调整 URL 参 数 /Scrapy 设 置 控 制 伪 站 点 的 结构 〈 见 

10.4) 以 及 页 面 加 载 速度 。 无 需 担心 细 方 ， 我 们 很 快 就 会 看 到 更 
多 示例 。 现 在 ， 可 以 观察 
http://localhost:9312/benchmark/index?p=1 与 
http://localhost: 9312/benchmark/ 
id:3/rr:5/index?p=1 的 区 别 。 第 一 个 页 面 加 载 时 间 在 半 秒 
之 内 ， 并 且 每 个 详情 页 中 有 一 个 条 目 ， 而 第 二 个 页 面 需要 5 秒 时 间 
加 载 ， 但 每 个 详情 页 中 包含 3 个 条 目 。 我 们 还 可 以 向 页 面 中 添加 一 
些 隐藏 的 垃圾 数据 ， 使 其 更 大 一 些 。 比 如 ， 
http://Llocalhost:9312/ benchmark/ds:100/ 
detail?id0=0 。 默 认 情 况 下 (参见 speed/settings.py 

) ， 页 面 泻 染 在 SPEED_T_RESPONSE = 0.125 秒 内 ,， 伪 站 点 
包含 SPEED_TOTAL_ITEMS = 5000 个 Item。 
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C Jo = 


1 <ul><li><h3>I'm 2</h3><div class="info">useful 
info for id: 2</div></li><li><h3>I'm 3</h3> 
<div class="info">useful info for id: 3</div> 
</li><li><h3>I'm 4</h3><div 
class="info">useful info for id: 4</div></li> 
</ul><!-- 


view-source:localhost:931.. 


SPEED_INDEX_POINTAHEAD 


1221111111111111111111111111111111 


iiiiiiii--SPEED DETAIL EXTRA SIZE 


图 10.4 我 们 的 基准 系统 创建 的 具有 可 调整 结构 的 伪 站 点 


e [@SpeedSpider ， 通 过 控制 
SPEED_START_REQUESTS_STYLE 设置 伪造 一 些 获 取 
start_requests() 的 方式 ， 并 提供 了 一 个 简单 的 
parse_item() 方法 。 默 认 情 况 下 ， 我 们 使 用 
crawler .engine.crawl() 方法 直接 将 所 有 启动 URL 提 供给 
S ar ° 

。 管道 DummyPipeline 伪造 一 些 处 理 。 它 包含 该 处 理 可 能 导致 的 
4 种 延迟 类 型 : 阻塞 /计算 /同步 延迟 

(SPEED_PIPELINE_BLOCKING_DELAY ， 这 是 一 种 不 好 的 方 
式 ) ` HEIR (SPEED_PIPELINE_ASYNC_DELAY ， 这 是 一 
种 可 以 接受 的 方式 ) 、 使 用 treq 库 的 远程 API 调 用 

(SPEED_PIPELINE_API_VIA_TREQ ， 这 是 一 种 可 以 接受 的 方 
式 ) 以 及 使 用 Scrapy 的 crawler .engine.download() 的 远程 


API 调 用 (SPEED_PIPELINE_API_VIA_DOWNLOADER ， 这 是 

o 默认 情况 下 ， 该 管道 不 会 添加 任何 延迟 。 
在 settings .py 中 包含 了 一 组 高 性 能 设置 。 所 有 可 能 会 造成 系 
统 有 任何 减 慢 的 设置 都 已 经 被 禁用 。 由 于 我 们 只 访问 本 地 服务 
器 ， 因 此 针对 单 域名 请 求 数 的 限制 也 被 禁用 了 。 

。 与 第 8 章 类 似 的 少量 度量 捕获 扩展 。 它 将 周期 性 地 打印 出 核心 度量 


一 种 不 太 好 的 方式 ) 


指标 。 


我 们 已 经 在 前 面 的 例子 中 使 用 了 该 系统 ， 不 过 让 我 们 重新 运行 一 
次 模拟 ， 并 使 用 Linux 的 时 间 工 具 测 量 完整 的 执行 时 间 。 可 以 在 如 下 代 
码 中 看 到 被 打印 出 来 的 核心 度量 指标 。 


$ time scrapy crawl speed 


INFO: s/edule d/load scrape p/line done mem 


INFO: 


INFO: 


INFO: 


INFO: 


INFO: 


0 


14 


16 


16 


16 


0 


16 


6 


16 


12 


0 


0 


147 6144 


4849 16384 


4970 12288 


real 0m46.561s 


len(engine.slot.scheduler.mqs) 
len(engine.downloader.active) 


这 种 级 别 的 透明 度 是 非常 明显 的 。 我 缩短 了 列 名 ， 不 过 它们 应 该 
仍然 能 够 清楚 说 明 含 义 。 初 始 时 ， 在 调度 器 中 有 5000 个 URL， 而 在 结 
束 时 ， 完 成 列 中 也 有 5000 个 item。 下 载 器 作为 瓶颈 ， 已 经 被 充分 利 
用 ， 根 据 设 置 始终 会 有 16 个 活跃 的 请 求 。 抓 取 操作 主要 是 疏 虫 ， 因 为 
如 我 们 在 p/1ine 列 所 见 ， 管 道 是 空 的 ， 由 于 它 通 常 是 在 瓶颈 之 后 ， 


因此 虽然 一 定 程 度 上 被 利用 了 ， 但 是 没有 充分 利用 。 抓 取 5000 个 Item 
花费 了 46 秒 的 时 间 ， 使 用 的 并 发 请 求 N = 16， 即 每 个 请 求 的 平均 时 间 
7246 . 16 / 5000 = 147ms， 而 不 是 我 们 期 望 的 125ms， 不 过 这 也 还 可 以 


FESS ° 


10.4 ”标准 性 能 模型 


标准 性 能 模型 在 Scrapy 功 能 正 肖 且 下 载 器 为 性 能 瓶颈 时 成 立 。 在 
这 种 情况 下 ， 可 以 在 调度 器 中 看 到 一 些 请 求 ， 而 在 下 载 硕 中 则 十 并 发 
请 求 数 的 最 大 值 ( 见 图 10.5) 。 抓 取 程序 (IRAE) 被 轻 度 加 
载 ， 并 且 处 理 中 的 啊 应 数 不 会 持续 增长 。 


— — 
2000 URL 2000 URL 
@-— CONCURRENT_REQUESTS e- CONCURRENT_REQUESTS 
aa 人 9 =16 LAY =32 


SE g 
250 ms/req T 


"T | 62 ltem/ 秒 J a 123 Item/#b 


| = 了 一 


图 10.5 ”标准 性 能 模型 及 一 些 实验 结果 


有 3 个 主要 设置 用 于 控制 下 载 器 能 力 : CONCURRENT_REQUESTS 
` CONCURRENT_REQUESTS_PER_DOMAIN 以 及 
CONCURRENT_REQUESTS_PER_IP 。 其 中 第 一 个 是 粗 调控 制 。 无 论 
如 何 都 不 会 在 同一 时 间 有 超过 CONCURRENT_REQUESTS 数量 的 请 求 
处 于 活跃 状态 。 而 如 果 你 的 目标 是 单个 域名 或 相对 较 少 的 几 个 域名 ， 


CONCURRENT_REQUESTS_PER_DOMAIN 可 能 会 进一步 限制 活跃 请 求 
的 数量 。 如 果 设 置 了 CONCURRENT_REQUESTS_PER_IP , HBA 
CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 ， 此 时 有 效 的 限 
制 将 会 是 针对 单个 (目标 ) IP 的 请 求 数 。 比 如 ， 当 目标 是 一 些 共享 主 
机 站 点 时 ， 多 个 域名 可 能 会 指向 同一 侣 服务器 ， 该 设置 可 以 帮助 你 不 
会 过 度 攻击 该 服务 器 。 


为 了 保持 现在 的 性 能 探索 尽 可 能 简单 ， 我 们 通过 使 
CONCURRENT_REQUESTS_PER_IP 保留 为 默认 值 (0) 以 禁用 每 个 了 
的 限制 ， 并 且 设 置 CONCURRENT_REQUESTS_PER_DOMAIN 的 值 为 非 
常 大 的 数值 (1000000) 。 这 样 的 组 合 可 以 有 效 禁 用 针对 IP 和 域名 的 限 
制 ， 下 载 器 的 并 发 数量 可 以 完全 由 CONCURRENT_REQUESTS 来 控 
制 。 


我 们 而 望 系统 吞吐 量 依赖 于 下 载 页 面 所 化 费 的 平均 时 间 ， 包 括 远 
程 服务 器 部 分 以 及 我 们 的 系统 (Linux、Twisted/Python) 的 延迟 
(tgownload = tresponse + toverhead ) “如果 能 够 考虑 一 些 启动 和 结束 时 间 
也 是 很 好 的 。 它 包括 你 得 到 一 个 啊 应 的 时 间 与 其 Item 从 管道 另 一 端 出 
来 的 时 间 之 间 的 间隔 ， 以 及 在 缓存 冷 局 动 时 ， 你 得 到 第 一 个 啊 应 之 前 
的 时 间 及 性 能 较 差 时 的 时 间 。 


总 之 ， 如 果 你 需要 完成 N 个 请 求 的 任务 ， 并 且 我 们 的 息 虫 已 经 得 
到 了 适当 的 调整 ， 那 么 你 应 该 会 在 下 述 公 式 所 得 的 时 间 内 完成 。 


t N . ( t; esponse T tou rhe ad) 
j% CONCURRENT REQUESTS 


i tstart /stop 


我 们 无 法 控制 这 些 参 数 中 的 大 部 分 ， 这 多 少 让 人 有 些 遗 憾 。 我 们 
可 以 使 用 一 台 更 强大 的 服务 器 来 稍微 控制 tjjohegg ， 类 似 情况 还 有 kor 
/tstop 《该 参数 几乎 不 值得 为 之 努力 ， 因 为 我 们 只 会 在 每 次 运行 时 才 会 
花费 该 时 间 ) 。 除 了 对 N 个 请 求 的 给 定 工作 量 有 少许 改善 外 ， 我 们 所 
能 细心 调整 的 数值 只 有 CONCURRENT_REQUESTS ， 它 通常 依赖 于 我 
们 访问 远程 服务 器 的 困难 程度 。 如 果 我 们 将 其 设 定 为 一 个 非常 大 的 数 
值 ， 在 某 一 时 刻 ， 会 使 服务 器 的 CPU 能 力 或 远程 服务 器 及 时 响应 的 能 
MAREM, EIEN, tesos 将 会 突 增 ， 因 为 目标 网 站 对 我 们 实施 
了 限 速 、 封 禁 ， 或 者 我 们 造成 了 目标 网 站 宕 机 。 


让 我 们 运行 一 个 实验 来 检查 我 们 的 理论 。 我 们 将 以 tiosyonse © 
{0.125s, 0.25s, 05s} >` CONCURRENT_REQUESTS € {8, 16, 32, 64} 的 条 
HE e2000 item, YO FETAR ° 


$ for delay in 0.125 0.25 0.50; do for concurrent in 8 16 32 64; 
do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=2000 \ 


-S CONCURRENT REQUESTS=$concurrent -s SPEED_T_RESPONSE=$delay 


done; done 


在 我 的 笔记 本 上 ， 完 成 2000 个 请 求 的 时 间 如 表 10.1 所 示 (以 秒 为 
Bin). 


表 10.1 


CONCURRENT_REQUESTS 125ms/ 请 求 | 250ms/ 请 求 | 500ms/ 请 求 
H l 


7.3 


警告 : 接 下 来 将 会 是 令 人 讨厌 的 计算 ! 你 可 以 略 读本 段 内 容 。 我 
们 可 以 在 图 10.5 中 看 到 部 分 结果 。 通 过 重新 排列 最 后 的 公式 ， 我 们 可 
以 将 其 转换 为 更 加 简单 的 形式 (Bly = tovernead * X+ tetarvstop ， 其 中 x=NN 
/CONCURRENT_REQUESTS 和 y = tjop ` X + tresponse) 。 使 用 最 小 二 乘 
法 《Excel 函数 为 LINEST ) 和 前 面 的 数据 ， 我 们 可 以 计算 得 到 tepeod 
= 6ms， 而 tsiarystop = 3-18 ° toverhead 是 一 个 很 小 的 数值 ， 而 司 动 时 间 却 
非常 显著 ， 不 过 它 支 持 了 数 千 个 URL 的 长 时 间 运 行 。 因 此 ， 我 们 将 使 
用 一 个 非常 有 用 的 公式 ， 以 请 求 数 / 秒 为 单位 近似 系统 的 吞吐 量 ， 如 下 
所 示 。 


mi 


N 
T = 


tjob 一 tstart/stop 


通过 运行 N 个 请 求 的 长 时 间 任务 ， 我 们 可 以 测量 出 yos 的 汇总 时 
间 ， 然 后 直接 计算 T。 


10.5 ”解决 性 能 问题 


现在 我 们 应 当 对 系统 预期 拥有 的 性 能 是 什么 有 了 充分 的 了 解 ， 接 
下 来 看 一 下 如 有 宁 没 有 得 到 想 要 的 性 能 时 应 当 如 何 操作 。 我 们 将 通过 探 
讨 具体 证 状 来 展示 不 同 的 问题 案例 ， 执 行 示例 爬虫 进行 复 现 ， 探 讨 根 
本 原因 ， 最 终 提供 解决 问题 的 操作 。 案 例 展示 的 顺序 从 系统 顶层 问题 
逐步 到 低层 次 的 Scrapy 技 术 细 证 。 这 束 意 味 厦 更 普 衣 的 案例 可 能 会 出 
现在 没 那 么 第 见 的 案例 之 后 。 在 探索 你 的 性 能 问题 之 前 ， 请 完整 阅读 
本 章 全 部 内 容 。 


10.5.1 案例 查 : CPU 饱 和 


症状 在 某 些 情况 下 ， 你 增加 了 并 发 级 别 ， 但 没有 得 到 性 能 提 
升 。 当 降低 并 发 级 别 时 ， 一 切 工作 再 次 回归 预期 ( 见 图 10.6) 。 你 的 
下 载 器 可 以 被 充分 利用 ， 但 是 似乎 每 个 请 求 的 平均 时 间 出 现 了 激增 。 
当 在 UNIX/Linux 系 统 中 使 用 top 命令 、 在 Power Shell 中 使 用 ps 命令 或 
在 Windows 中 使 用 任务 管理 器 查看 CPU 负载 如 何 时 ， 会 发 现 CPU 负 载 
非常 高 。 


| 5000 URL 
7 


W— CONCURRENT_REQUESTS 
T LAP =:100 


125 ms/req 一 一 | 
rey -~ 
| & 


zg 15 


5000 个 URL 所 员 的 时 间 〈 秒 ) 
8 


| | | 450 ltem/ 秒 
=—> 


2 40 6 8 100 120 140 160 180 200 5-760 Item/# 
CONCURRENT REQUESTS (期 望 值 / fb) 


以 


组 


图 10.6” 当 并 发 增长 到 一 定 程度 后 ， 性 能 趋 于 3 


示例 : 假设 运行 了 如 下 命令 。 


$ for concurrent in 25 50 100 150 200; do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=5000 \ 


-S CONCURRENT_REQUESTS=$concurrent 


done 


你 得 到 了 其 抓 取 5000 个 URL 的 时 间 。 在 表 10.2 中 ， 期 望 值 一 列 是 
基于 前 面 得 到 的 公式 计算 所 得 ， 而 CPU 负载 是 通过 top 命令 观察 得 到 
的 (可 以 在 开发 机 中 使 用 第 二 个 终端 运行 该 命令 ) 。 


表 10.2 


ma 实际 值 CPU 
CONCURRENT_REQUESTS 
( 秒 ) 


CONCURRENT_REQUESTS 期 望 值 | 实际 值 | 期 望 值 与 实际 值 的 | CPU 
( 秒 ) ( 秒 ) 百分比 负载 


在 我 们 的 实验 中 ， 由 于 几乎 不 执行 任何 处 理 ， 因 此 能 够 得 到 高 并 
发 。 而 在 一 个 更 复业 的 系统 中 ， 很 可 能 会 更 早 地 看 到 该 行为 。 


We: Scrapy 重 度 使 用 单一 线程 ， 当 达到 很 高 级 别 的 并 发 时 ， 
CPU 可 能 会 成 为 瓶 贷 。 假 设 不 使 用 任何 线程 池 ， 那 么 Scrapy 应 当 使 用 
的 CPU 负载 建议 在 80% 一 909%。 请 记 住 你 可 能 在 其 他 系统 资源 上 过 到 
相似 的 问题 ， 比 如 网 络 市 宽 、 内 存 或 位 盘 吞吐 量 ， 不 过 这 些 都 很 少 
见 ， 并 且 会 落 入 通用 系统 的 管理 范畴 ， 因 此 整 不 在 这 里 进一步 强调 
下 


解决 方案 : 通常 假设 你 的 代码 是 有 效 的 。 你 可 以 通过 在 同一 台 服 
务 絮 上 运行 多 个 Scrapy 疏 虫 ， 以 使 总 计 并 发 超过 
CONCURRENT_REQUESTS。 这 可 以 帮助 你 利用 更 多 可 用 核心 ， 尤 其 
是 当 管道 的 其 他 服务 或 其 他 线程 不 使 用 它们 的 时 候 。 如 果 需 要 更 多 的 
并 发 ， 可 以 使 用 多 台 服 务 器 (参见 第 11 章 ) ， 这 种 情况 下 可 能 还 需要 
更 多 可 用 的 资金 、 网 络 带 宽 以 及 磁盘 否 吐 量 。 始 终 检查 CPU 利 用 率 是 
你 的 首要 约束 。 


10.5.2 ”案例 #2: 代码 阻塞 


症状 : 你 所 观察 到 的 行为 无 法 说 通 。 和 期 望 值 相 比 ， 系 统 非常 
慢 ， 并 且 奇 怪 的 是 ， 即 使 当 你 改变 CONCURRENT_REQUESTS 的 值 
时 ， 速 度 也 没有 显著 变化 ( 见 图 10.7) 。 下 载 器 看 起 来 总 是 空 的 (D 
于 CONCURRENT_REQUESTS ) ， 而 抓 取 程序 却 有 不 少 响应 。 


CONCURRENT_REQUESTS = 1 (?!) 


图 10.7 ”阻塞 代码 以 不 可 预测 的 方式 使 并 发 无 效 


示例 : 你 可 以 使 用 两 个 基准 设置 : 
SPEED_SPIDER_BLOCKING_DELAY 和 
SPEED_PIPELINE_BLOCKING_DELAY (它们 具有 相同 的 效果 ) ， 
对 每 个 啊 应 局 用 一 个 100ms 的 阻塞 。 在 给 定 并 发 级 别 时 ， 我 们 期 望 100 
个 URL 应 当 花 费 2~3 秒 ， 但 无 论 CONCURRENT_REQUESTS 的 值 是 多 
少 ， 我 们 总 是 需要 花费 大 约 13 秒 的 时 间 ( 见 表 10.3) ° 


for concurrent in 16 32 64; do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=100 \ 


-S CONCURRENT_REQUESTS=$concurrent -s 
SPEED_SPIDER_BLOCKING_DELAY=0.1 


done 


表 10.3 


讨论 : 任何 阻塞 代码 都 会 立即 抵消 掉 Scrapy 的 并 发 性 ， 本 质 上 相 
当 于 设置 CONCURRENT_REQUESTS = 1 ° 根据 上 面 的 简单 公式 ， 
100URL - 100ms (阻塞 延迟 ) = 10 秒 + tstarwstop ， 充 分 解释 了 我 们 所 看 
到 的 延迟 。 


无 论 阻 塞 代 码 是 在 管道 中 还 是 在 爬虫 中 ， 你 都 会 发 现 抓 取 程序 可 
以 被 充分 利用 ， 但 其 前 后 的 模块 都 是 空 的 。 这 看 起 来 违 育 了 前 面 讲 过 
的 管道 的 物理 现象 ， 不 过 由 于 我 们 已 经 不 再 拥有 一 个 并 发 系统 了 ， 所 
以 管道 规则 不 再 适用 。 该 错误 非常 容易 发 生 〈 比 如 使 用 阻塞 API) ， 
你 一 定 会 在 某 一 时 刻 出 现 该 错误 。 你 会 注意 到 类 似 的 讨论 同样 适用 于 
复杂 代码 的 计算 。 你 应 当 为 此 类 代码 使 用 多 线程 ， 正 如 我 们 在 第 9 章 中 
所 看 到 的 ;或 者 是 在 Scrapy 之 外 进行 批量 处 理 ， 我 们 将 会 在 第 11 章 中 
看 到 一 个 相关 示例 。 


解决 方案 : 将 假设 你 继承 了 基 代 码 ， 并 且 不 清楚 阻塞 代码 位 于 何 
处 。 如 果 该 系统 在 没有 任何 管道 的 情况 下 仍然 可 以 工作 ， 那 么 禁用 这 
些 管道 ， 并 检查 是 否 仍 存在 奇怪 的 行为 如果 仍 存在 ， 那 么 阻塞 代码 
位 于 疏 虫 中 。 如 果 不 再 存在 ， 那 么 依次 局 用 管道 ， 观 察 问 题 是 否 开 始 
出 现 。 如 果 该 系统 在 缺少 任何 运行 中 的 模块 的 情况 下 无 法 正常 运转 ， 
那么 可 以 在 每 个 管道 阶段 的 功能 之 间 添 加 一 些 日 志 消 息 (或 插入 虚拟 
管道 打印 时 间 戳 ) 。 通 过 检查 日 志 ， 可 以 轻松 检测 出 系统 在 什么 地 方 
花费 了 最 多 的 时 间 。 如 果 硕 望 有 一 个 更 加 长 期 /可 复 用 的 解决 方案 ， 可 
以 使 用 虚拟 管道 跟踪 你 的 请 求 ， 在 Request 的 meta 字段 中 为 每 个 阶 
段 添加 时 间 戳 。 最 后 ，hook 到 item_scraped 信号 ， 并 记录 时 间 惟 日 
志 “。 一 旦 你 发 现 阻 塞 代 码 ， 则 应 将 其 转换 为 Twisted/ 异 步 代 码 ， 或 使 用 
Twisted 的 线程 池 。 如 果 想 要 查看 该 转换 的 效果 ， 可 以 将 
SPEED_PIPELINE_BLOCKING_DELAY 替换 为 SPEED __ 
PIPELINE_ASYNC_DELAY ， 重 新 运行 前 面 的 示例 。 性 能 的 变化 将 十 
分 惊人 。 


10.5.3 ”案例 #3: 下 载 器 中 的 “垃圾 ” 


症状 你 得 到 的 吞吐 量 低 于 预期 。 下 载 器 看 起 来 有 时 会 有 比 
CONCURRENT_REQUESTS 更 多 的 请 求 。 


示例 : 模拟 以 0.25 秒 响应 时 间 的 情况 下 载 1000 个 页 面 。 按 照 默认 
的 16 个 并 发 ， 根 据 公 式 需 要 花费 大 约 19 秒 的 时 间 。 我 们 使 用 一 个 管 
道 , FAlcrawler.engine.download( ) 制造 到 伪造 API 的 额外 HTTP 
请 求 ， 其 响应 时 间 在 1 秒 之 内 。 你 可 以 通过 http:// 


localhost :9312/benchmark/ar :1/api?text=hello 进行 党 
试 ( 见 图 10.8) 。 让 我 们 运行 一 个 朴 取 程序 。 

$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 
RESPONSE=0.25 -s SPEED _API_T_RESPONSE=1 -s SPEED PIPELINE API_VIA_ 


DOWNLOADER=1 


s/edule d/load scrape p/line done mem 


968 32 32 32 0 32768 


32 


32 32 32768 


real 0m55.151s 


1000 URL | 


a) 16 input requests run in the 
downloader taking 250ms each 


LLY 


CONCURRENT_REQUESTS= 16 


. 
- j af = b) As soon as they complete we 
> “a 


中 


pull 16 more and the first ones 

move to the pipeline which injects 
r L 16 "spurious" 1-sec API requests. 
c) As soon as the second batch 


=a | 19 Item/ Rb completes (250ms later), we use 
= p 3 the downloader entirely for API 
x =| - requests. The system doesn't 
process further input requests 
unless the downloader has less 


( 期 望 值 : 62 ltem/ 秒 ) than 16. Throughput is defined by pN 


the 1-sec latency of API requests. 


WI WW 
AA M VY 


图 10.8 ”由 虚假 API 请 求 数 定义 的 性 能 


非常 奇怪 ! 我 们 的 任务 不 但 花费 了 预期 的 3 倍 时 间 ， 还 超出 了 下 
载 器 定义 的 CONCURRENT_REQUESTS 所 设 定 的 16 个 活跃 请 求 数 
(d/load) 。 下 载 器 显然 是 瓶 绒 ， 因 为 它 在 超 负荷 工作 。 我 们 重新 
运行 疏 取 程序 ， 并 在 另 一 个 控制 台中 打开 到 Scrapy 的 telnet 和 连接 。 之 
后 ， 就 可 以 查看 下 载 器 中 有 哪些 请 求 是 活跃 的 了 。 


$ telnet localhost 6023 


>>> engine.downloader.active 


set([<POST http: //web:9312/ar :1/ti:1000/rr:0.25/benchmark/api>, 
vee.) 


看 起 来 它 处 理 的 大 部 分 是 API 请 求 ， 而 不 是 下 载 正 常 页 面 。 


讨论 : 你 可 能 会 认为 没有 人 使 用 
crawler .engine.download() ， 因 为 它 看 起 来 会 比较 复杂 ， 不 过 
它 在 Scrapy 的 基 代 码 中 使 用 了 两 次 ， 分 别 是 robots .txt 中 间 件 和 多 
媒体 管道 。 因 此 ， 当 人 们 需要 使 用 Web API 时 ， 它 也 会 被 推荐 为 一 种 
解决 方案 。 因 为 使 用 它 要 比 使 用 阻塞 API 更 好 ， 比 如 我 们 在 前 面 章节 
中 看 到 的 流行 的 Python 包 requests ; 而 且 ， 使 用 它 还 会 比 理解 
Twisted 编 程 和 使 用 tred 简单 一 些 。 现 在 既然 有 了 咱们 这 本 书 ， 这 些 
就 不 再 是 使 用 它 的 借口 了 。 男 一 方面 ， 该 错误 非常 难 调试 ， 所 以 应 当 
在 研究 性 能 时 主动 检查 下 载 器 中 的 活路 请求 。 如 果 发 现 API 或 多 媒体 
URL 不 是 你 仆 取 的 直接 目标 ， 那 么 就 意味 着 某 些 管道 使 用 了 
crawler .engine.download( ) 来 执行 HITP 请 求 。 由 于 我 们 的 
CONCURRENT_REQUESTS 限制 不 适用 于 这 些 请 求 ， 也 了 束 意 味 着 我 们 
很 可 能 看 到 下 载 器 加 载 的 请 求 数 超过 CONCURRENT_ REQUESTS, Æ 
看 起 来 有 些 矛 盾 。 除 非 虚 假 请 求 数 降低 到 CONCURRENT_ REQUESTS 
以 下 ， 人 否则 调度 器 不 会 获取 新 的 正常 页 面 请 求 。 


因此 ， 我 们 从 系统 中 得 到 的 吞吐 量 相 当 于 原始 请 求 持续 1 秒 (API 
延迟 ) ， 而 不 是 0.25 秒 HA PRR) 的 吞吐 量 不 是 一 种 巧合 。 这 
种 情况 特别 容易 令 人 困惑 ， 因 为 除非 API 调 用 比 页 面 请 求 慢 ， 人 否则 我 
们 不 会 注意 到 任何 性 能 下 降 。 


解决 方案 : 我 们 可 以 使 用 treq 代替 
crawler .engine.download() 来 解决 该 问题 。 你 将 发 现 这 会 使 抓 
取 程 序 的 性 能 突 增 ， 这 对 于 API 架 构 来 说 可 能 是 个 坏 消息 。 我 将 从 一 


个 低 数 值 的 CONCURRENT_REQUESTS 开 始 ， 逐 渐 增 长 以 确保 不 会 使 
API 服 务 器 过 载 。 


下 面 是 和 前 面相 同 的 运行 示例 ， 不 过 这 次 使 用 了 treq。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED T 


RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s 
SPEED_PIPELINE_API_VIA_TREQ=1 


s/edule d/load scrape p/line done mem 


936 16 48 32 0 49152 


64 32 66560 


52 96 66560 


real 0m19.922s 


你 会 发 现 一 个 非常 有 趣 的 事情 。 管 道 (p/1ine ) 似乎 包含 比 下 
载 器 (d/load) 更 多 的 条 目 〈 见 图 10.9) 。 这 种 情况 非常 好 ， 并 且 
了 解 其 原因 也 很 有 趣 。 


1000 URL 


| 


T / \©  CONCURRENT_REQUESTS= 16 
250 ms/req < VY 
N=16 req f= 


| == 59 Item/#b 
j— 1000 ms/req = 
N=64 req 


图 10.9 拥有 长 管道 非常 完美 〈 在 Google 图 片 中 查看 “industrial heat exchanger”) 


下 载 器 如 预期 一 样 ， 充 分 加 载 了 16 个 请 求 。 也 就 是 说 ， 系 统 吞 吐 
量 为 T= N/S=16/0.25= 64 个 请 求 / 秒 。 我 们 可 以 通过 观察 done 列 的 
增长 进行 确认 。 一 个 请 求 会 在 下 载 器 中 花费 0.25 秒 ,但 是 由 于 缓慢 的 
API 请 求 ， 它 会 在 管道 中 花费 1 秒 的 时 间 。 这 意味 着 在 管道 中 

(pline) ， 我 们 期 望 看 到 平均 N = TS = 64-1 = 64 个 Item。 非 常 好 。 这 
表示 现在 管道 有 瓶 绒 吗 ? 不 ， 因 为 我 们 没有 限制 同时 在 管道 中 处 理 的 
响应 数量 。 只 要 数值 不 是 无 限 增 加 ， 就 能 够 很 好 地 运行 。 在 下 一 闻 
中 ， 我 们 将 看 到 更 多 关于 这 个 问题 的 讨论 。 


10.5.4 ”案例 #4: 大 量 响应 或 超 长 响应 造成 的 溢出 


FER: 下 载 器 几乎 满 负 荷 运转 ， 并 且 一 段 时 间 后 关闭 。 该 模式 不 
断 重 复 。 抓 取 程 序 的 内 存 使 用 率 很 高 。 


示例 : 此 处 我 们 使 用 了 和 前 面 一 样 的 设置 (使 用 了 treq) ,不 
过 啊 应 会 比较 大 ， 大 约 是 120KB 的 HIML。 如 你 所 见 ， 此 时 花费 了 31 


秒 的 时 间 完 成 ， 而 不 是 20 秒 左右 〈 见 图 10.10) ° 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 


RESPONSE=0.25 -s SPEED_API_T_RESPONSE=1 -s 
SPEED_PIPELINE_API_VIA_TREQ=1 


-S SPEED_DETAIL_EXTRA_SIZE=120000 


s/edule d/load scrape p/line done 
952 16 32 32 0 3842818 
35 35 32 4203080 
4923608 
5764224 


5524048 


real 0m30.611s 


1000 URL 


图 10.10 ”下 载 器 中 不 规则 的 请 求 数 表示 响应 大 小 限 流 


讨论 : 我 们 可 能 会 天 真 地 党 试 将 这 种 延迟 解释 为 “创建 、 传 输 、 
处 理 页 面 需 要 花费 更 多 时 间 ”， 不 过 这 并 不 是 此 处 发 生 的 情况 。 此 处 有 
一 个 人 硬 编 码 (编写 代码 时 写 入 ) 的 对 请 求 总 大 小 的 限制 : 
max_active_size = 5000000。 假 设 每 个 请 求 的 大 小 等 于 其 请 求 体 
的 大 小 ， 并 且 至 少 是 1KB © 


一 个 重要 的 细 市 是 ， 该 限制 可 能 是 Scrapy 最 巧妙 且 本 质 的 机 制 ， 
用 于 防止 过 慢 的 爬虫 或 管道 。 如 采 你 的 任何 一 个 管道 的 吞吐 量 比 下 载 
亏 的 吞吐 量 更 慢 ， 节 终 惑 会 发 生 这 种 情况 。 当 管道 处 理 时 间 过 长 时 ， 
即使 很 小 的 请 求 ， 也 很 容易 触发 该 限制 。 下 面 是 一 个 管道 超 长 的 极端 
案例 ，80 秒 之 后 吏 会 开始 产生 问题 。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=10000 -s SPEED T_ 


RESPONSE=0.25 -s SPEED _PIPELINE_ASYNC_DELAY=85 


解决 方案 : 对 于 已 存在 的 基础 架构 ， 针 对 该 问题 几乎 无 计 可 施 。 
当 你 不 再 需要 时 《比如 疏 虫 之 后 ) ， 清 空 响应 体 是 个 不 错 的 选择 ， 不 
过 在 写 操作 时 执行 该 操作 不 会 重 置 Scraper 的 计数 器 。 所 有 你 能 做 的 就 
古 降 低 管 道 的 处 理 时 间 ， 从 而 有 效 减 少 Scraper 中 处 理 的 啊 应 数量 。 可 
以 使 用 传统 的 优化 手段 实现 它 : 检查 可 能 与 之 交互 的 API 或 数据 库 是 
否 能 够 文 持 抓 取 程序 的 否 吐 量 ， 分 析 抓 取 程序 ， 将 功能 管道 移动 到 批 
处 理 /后 处 理 系统 ， 使 用 更 强大 的 服务 器 或 分 布 式 息 取 。 


10.5.5 ”案例 #5 有限/ 过度 item 并 发 造成 的 溢出 


FER: 你 的 疏 虫 为 每 个 响应 创建 了 多 个 Item 。 你 得 到 的 吞吐 量 低 
于 预期 ， 并 且 可 能 和 前 面 案例 中 的 开 / 关 模 式 相同 。 


示例 : 这 里 ， 我 们 有 一 个 稍微 不 太一 样 的 设置 ， 我 们 有 1000 个 请 
求 ， 并 且 它 们 的 每 个 返回 页 面 都 有 100 个 Ttem。 响 应 时 间 是 0.25 秒 ， 
Item 管 道 处 理 时 间 为 3 秒 。 我 们 设置 CONCURRENT_ITEMS 的 值 从 10 到 
150， 执 行 多 次 。 


for concurrent items in 10 20 50 100 150; do 


time scrapy crawl speed -s SPEED TOTAL ITEMS=100000 -s \ 


SPEED_T_RESPONSE=0.25 -s SPEED ITEMS PER _DETAIL=100 -s \ 


SPEED _PIPELINE_ASYNC_DELAY=3 -s \ 


CONCURRENT_ITEMS=Sconcurrent_items 


done 


s/edule d/load scrape p/line done mem 


952 16 32 180 0 243714 
920 16 64 640 0 487426 
888 16 96 960 0 731138 


Wi: 值得 再 次 注意 ， 该 情况 只 适用 于 把 虫 为 每 个 啊 应 生成 多 个 
Item 时 。 除 这 种 情况 处 ， 你 应 该 设置 CONCURRENT_ITEMS = 1 ， 然 


后 态 了 它 。 男 外 还 需 注 意 的 是 ， 这 是 一 个 虚拟 的 示例 ， 因 为 其 否 吐 量 
相当 大 ， 达 到 了 每 秒 大 约 1300 个 Item。 之 所 以 达到 如 此 高 的 吞吐 量 ， 
征 因 为 延迟 低 且 稳定 、 几 乎 没有 真实 处 理 ， 以 及 啊 应 的 大 小 很 小 。 这 
种 情况 并 不 第 见 。 


我 们 首先 要 注意 的 事情 是 ， 在 此 之 前 scrape flp/line 列 通常 
都 是 相同 的 数值 ， 而 现在 p/1ine 则 是 CONCURRENT_ITEMS - 
scrape 。 这 是 符合 预期 的 ， 因 为 scrape 显示 的 是 响应 数 ， 而 
p/line 则 是 Item 数 。 


第 二 个 有 意思 的 事情 十 图 10.11 所 示 的 浴缸 形状 的 性 能 函数 。 由 于 
纵 轴 是 缩放 的 ， 因 此 该 图 表 看 起 来 会 比 实 际 情况 更 显 着 。 在 左 侧 ， 延 


迟 非常 高 ， 因 为 触及 了 前 一 节 所 提 到 的 内 存 限 制 。 而 在 右 侧 ， 并 发 过 
多 ， 造 成 使 用 了 过 多 的 CPU“。 获 得 最 佳 效 果 并 不 那么 重要 ， 因 为 同 左 
右 移 动 非常 容易 。 


82 
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图 10.11 LACONCURRENT_ITEMS H% EHIE A] Rae 


解决 方案 : 检测 本 案例 的 两 种 问题 症状 非常 容易 。 如 果 CPU 使 用 
率 过 高 ， 那 么 最 好 减少 CONCURRENT_ITEMS 的 值 。 如 果 触 及 响应 的 
5MB 限 制 ， 那 么 你 的 管道 无 法 跟 上 下 载 需 的 吞吐 量 ， 增 加 
CONCURRENT_ITEMS 的 值 可 能 能 够 快速 解决 该 问题 。 如 果 修 改 后 没 
有 什么 区 别 ， 那 么 应 当 遵照 前 面 一 节 给 出 的 建议 ， 再 三 询问 自己 系统 
的 其 余部 分 是 否 能 够 文 持 你 的 抓 取 程序 的 吞吐 量 。 


10.5.6 ”案例 #6: 下载 器 未 充分 利用 


症状 你 增加 了 CONCURRENT_REQUESTS 的 值 ， 但 是 下 载 器 并 
未 跟 上 ， 没 能 充分 利用 。 调 度 器 是 空 的 。 


示例 : 首先 ， 我 们 运行 一 个 没有 问题 的 示例 。 我 们 将 切换 到 1 秘 
的 响应 上 时间， 因为 它 能 够 简化 计算 量 ， 使 下 载 右 的 厨 吐 量 T=N/S=N 
/1=CONCURRENT_REQUESTS 。 假 设 按照 如 下 命令 运行 。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ 


-S SPEED_T_RESPONSE=1 -s CONCURRENT_REQUESTS=64 


s/edule d/load scrape p/line done mem 


436 64 


real 0m10.99s 


我 们 得 到 了 一 个 充分 利用 的 下 载 器 (648K) ， 总 时 间 为 11 
秒 ， 与 我 们 以 每 秒 64 个 请 求 的 条 件 处 理 500 个 URL 的 模型 相 匹 配 (S = 


N/T + tsarystop = 500 / 64+3.1=10.91 秒 ) ° 


现在 ， 执 行 相同 的 把 取 ， 不 过 不 再 像 前 面 那些 示例 那样 默认 从 列 
表 中 提供 URL， 而 是 使 用 索引 页 通过 
SPEED_START_REQUESTS_STYLE=UseIndex 抽取 URL 。 这 和 我 们 


本 书 中 其 他 章 使 用 的 模式 相同 。 每 个 索引 页 默认 包含 20 个 URL。 


$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ 


-S SPEED_T_RESPONSE=1 -s CONCURRENT_REQUESTS=64 \ 


-S SPEED_START_REQUESTS_STYLE=UseIndex 


s/edule d/load scrape p/line done mem 


real 0m32.24s 


AREA T, AAR TA SEPIA AE °c AAA, Bea HIS AT AR 
FERAJ, FE ILEDAT = N/S~tetarystop = 500 / (32.2 - 3.1) = 17 


个 请 求 / 秒 。 


Wie: 快速 浏览 d/load 列 ， 可 以 确信 下 载 器 没 能 充分 利用 。 这 
征 因 为 我 们 没有 足够 的 URL 提 供给 它 。 我 们 的 抓 取 处 理 生成 URL 的 速 
度 比 最 大 消费 能 力 要 慢 。 在 本 例 中 ， 每 个 索引 页 会 生成 20 个 URL 加 上 1 
个 前 往 下 一 索引 页 的 URL。 否 吐 量 无 论 如何 都 无 法 超过 每 秒 20 个 请 
求 ， 因 为 我 们 无 法 足够 快 地 得 到 源 URL。 该 问题 非常 隐蔽 ， 容 易 被 忽 
视 。 


解决 方案 如果 每 个 索引 页 包含 一 个 以 上 的 下 一 页 的 链接 ， 那 么 
可 以 利用 它们 加 速 URL 的 生成 。 如 果 可 以 找到 显示 更 多 结果 的 索引 页 
E 《比如 50 个 ) 就 更 好 了 “。 我 们 可 以 通过 运行 几 个 模拟 来 观察 其 行 
为 。 


$ for details in 10 20 30 40; do for nxtlinks in 1 2 3 4; do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 -s 
SPEED_T_RESPONSE=1 \ 


-S CONCURRENT_REQUESTS=64 -s SPEED START _REQUESTS_STYLE=UseIndex \ 


-S SPEED_ DETAILS PER_INDEX_PAGE=$details \ 


-S SPEED_INDEX_POINTAHEAD=$nxtlinks 


done; done 


在 图 10.12 中 ， 可 以 看 到 吞吐 量 是 如 何 根据 这 两 个 参数 变化 的 。 我 

们 观察 到 了 线性 行为 ， 无 论 是 下 一 页 链接 ， 还 是 详情 页 ， 直 到 达到 系 
统 上 限 。 可 以 通过 重新 排列 爬 取 的 Rule 进行 实验 。 如 采 使 用 LIFO 

(默认 ) 顺序 ， 你 可 能 会 看 到 如 果 先 调用 索引 页 请 求 ， 最 后 在 列表 中 
抽取 它们 的 话 ， 能 够 得 到 较 小 的 改善 。 你 也 可 以 笑 试 为 访问 索引 页 的 
请 求 设置 高 优先 级 。 虽 然 这 两 种 技术 都 没有 显著 的 改善 ， 但 可 以 通过 
分 别 设置 SPEED_INDEX_RULE_LAST=1 和 
SPEED_INDEX_HIGHER_PRIORITY=1 来 进行 尝试。 请 注意 这 两 种 
解决 方案 都 会 首先 下 载 整个 索引 页 (由 于 优先 级 高 ， 因 此 会 在 调度 
锅 中 生成 大 量 URL， 增 加 内 存 需 求 。 在 它们 完成 所 有 索引 之 前 ， 只 会 
给 出 少量 的 结果 。 对 于 少量 索引 还 可 以 接受 ,但 是 对 于 大 量 索 引 的 情 
况 ， 就 不 太 可 取 了 。 


T 1 link 
A — in 
tty. i ] 一 2links 
。 Po — 3links 
nip. | 2 一 4links 
全 ) 
es 一 : 
F- : 
= 总 
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ES | 0 L L 1 1 
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= n 每 个 索引 页 的 URL 


图 10.12 ”以 每 个 索引 页 链接 的 详情 页 及 下 一 页 数量 为 变量 的 吞吐 量 函 数 


一 个 简单 而 又 强大 的 技术 是 索引 分 片 。 这 就 需要 你 使 用 超过 一 个 
初始 索引 URL， 在 它们 之 间 有 一 个 最 大 距离 。 比 如 ， 如 果 索 引 包 含 100 
页 ， 你 可 以 选取 1 和 51 作 为 起 始 索 引 。 然 后 ， 疏 虫 可 以 以 两 倍速 率 使 用 
下 一 页 链接 有 效 人 遍历 索引 。 如 果 你 能 找到 一 种 遍历 索引 的 方式 ， 比 如 
基于 产品 的 品牌 或 提供 给 你 的 任何 其 他 属性 ， 并 且 可 以 将 其 按照 大 致 
相等 的 段 进行 拆 分 的 话 ， 也 可 以 做 到 类 似 的 事情 。 你 可 以 使 用 -s 
SPEED_INDEX_SHARDS 设置 进行 模拟 。 


$ for details in 10 20 30 40; do for shards in 1 2 3 4; do 


time scrapy crawl speed -s SPEED _TOTAL_ITEMS=500 -s 
SPEED_T_RESPONSE=1 \ 


-S CONCURRENT_REQUESTS=64 -s SPEED _START_REQUESTS STYLE=UseIndex \ 


-S SPEED DETAILS PER_INDEX_PAGE=$details -s 
SPEED_INDEX_SHARDS=$shards 


done; done 


结果 要 比 前 面 的 技术 更 好 ， 如 果 该 方法 适合 你 的 话 ， 我 将 会 推荐 
MATE, Ay Ee ital RE o 


10.6 ”故障 排除 流程 


总 结 来 说 ，Scrapy 在 设计 时 就 将 下 载 器 作为 瓶 开 。 从 一 个 低 数值 
的 CONCURRENT_REQUESTS 开始 ， 逐 渐 增加 ， 直 到 触及 下 壕 限 制 之 


。 CPU 使 用 率 大 于 809% 一 909%6; 
。 源 网 站 延迟 过 度 增 长 ; 
。 抓 取 程 序 中 响应 达到 了 5MB 的 内 存 限 制 。 


同时 ， 执 行 以 下 操作 : 


。 始终 保持 调度 器 队列 (mqs/dqs) 中 至 少 有 一 定量 的 请 求 ， 避 免 下 
载 句 出 现 UREL 人 饥饿 ; 
。 永远 不 要 使 用 任何 阻塞 代码 或 CPU 密集 型 代码 。 


图 10.13 总 结 了 诊断 并 修复 Scrapy 性 能 问题 的 过 程 。 


使 用 top 命 令 获 知 CPU 
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图 10.13 ”Scrapy 性 能 问题 故障 排除 


10.7 ”本章 小 结 


在 本 革 中 ， 我 们 尝试 通过 给 出 儿 个 有 趣 的 案例 ， 来 突出 Scrapy 染 
构 的 优秀 性 能 。 具 体 细 市 可 能 会 在 未 来 版 本 的 Scrapy 中 有 所 变更 ， 不 
过 本 章 提供 的 知识 应 当 会 在 很 长 一 段 时 间 内 保持 有 效 ， 并 且 可 能 会 帮 
助 你 处 理 基 于 Twisted、Netty Node.js 或 类 似 框 架 的 任何 高 并 发 异步 系 


当 谈 到 Scrapy 的 性 能 问题 时 ， 有 3 个 有 效 的 答案 我 不 知道 也 不 介 
意 ; 我 不 知道 但 我 会 找 出 来 ; 我 知道 。 正 如 我 们 在 本 章 中 多 次 论证 
的 ， 天 真 地 回答 “我 们 需要 更 多 的 服务 右 / 内 存 / 带 宽 ”" 更 有 可 能 与 Scrapy 
的 性 能 无 天 。 人 们 和 需要 真正 理解 翔 贷 在 什么 地 方 ， 并 且 去 提升 它 。 


在 最 后 一 章 中 ， 我 们 将 进一步 专注 提升 性 能 ， 通 过 在 多 台 服 务 器 
上 分 布 式 部 闭 息 虫 ， 达 到 超越 单机 的 能 
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我 们 已 经 走 了 很 长 的 一 段 路 。 我 们 百 先 熟悉 了 两 种 基础 的 网 络 技 
术 一 一 HTML 和 XPath， 然 后 开始 使 用 Scrapy 拒 取 复 杂 网 站 。 接 下 来 ， 
我 们 深入 了 人 解 了 Scrapy 通 过 其 设置 为 我 们 提供 的 诸多 功能 ， 然 后 在 探 
讨 其 Twisted 引 擎 的 内 部 架构 和 异步 功能 时 ， 更 加 深入 地 了 人 解 了 Scrapy 
和 Python。 在 上 一 章 中 ， 我 们 研究 了 Scrapy 的 性 能 ， 并 学 习 了 如 何 解 
决 复杂 和 经 常 违背 直觉 的 性 能 问题 。 


在 最 后 的 这 一 章 中 ， 我 将 为 你 指出 如 何 进一步 将 该 技术 扩展 到 多 
台 服 务 部 的 一 些 方向 。 我 们 很 快 束 会 发 现 朴 取 工 作 经 解 是 一 种 “高 度 并 
发 ”的 问题 ， 因 此 可 以 轻松 地 实现 横向 扩展 ， 利 用 多 台 服 务 右 的 资源 。 
为 了 实现 该 目标 ， 我 们 可 以 像 平 时 那样 使 用 一 个 Scrapy 中 间 件 ， 不 过 
也 可 以 使 用 Scrapyd， 这 是 一 个 专 | 用 于 管理 运行 在 远程 服务 器 上 的 
Scrapy 疏 虫 的 应 用 。 这 将 允许 我 们 在 目 己 的 服务 器 上 ， 拥 有 与 第 6 章 中 
介绍 的 相 兼容 的 功能 。 


最 后 ， 我 们 将 使 用 基于 Apache Spark 的 简单 系统 ， 对 抽取 的 数据 
执行 实时 分 析 。Apache Spark 是 一 个 非常 流行 的 大 数据 处 理 框 染 。 我 
们 将 使 用 Spark Streaming API 展 示 在 数据 收集 增多 时 越 来 越 准确 的 结 
果 。 对 于 我 来 说 ， 最 终 的 这 个 应 用 展示 了 Python 作 为 一 种 语言 的 能 
和 成 熟 度 ， 因 为 我 们 只 需 这 些 ， 就 能 编写 出 富有 表现 力 、 简 洁 并 且 高 
效 的 代码 ， 实 现 从 数据 抽取 到 分 析 的 全 栈 工作 。 


11.1 房产 的 标题 是 如 何 影响 价格 的 


我 们 尝试 解决 的 示例 问题 是 找 出 标题 是 如 何 与 房产 价格 相关 的 。 
我 们 会 认为 诸如 “Jacuzzi* 或 "pool* 这 样 的 词汇 与 高 价位 相关 ， 而 类 
似 <discount" 这 样 的 词汇 与 低 价 位 相关 。 结 合 位 置信 息 ， 就 可 能 根据 该 
位 置信 息 和 描述 ， 为 我 们 提供 房产 是 否 特价 的 实时 报警 。 


我 们 所 需要 计算 的 是 给 定 词汇 在 是 否 存 在 时 的 价格 差 : 


Shiftterm = (Priceprope rties—with—term 一 Prict properties—without—term )/ Price 


比如 ， 假 设 平均 租金 为 $1000， 我 们 观察 到 包含 词汇 jacuzzi 的 房产 
平均 价格 是 $1300， 而 不 包含 该 词汇 的 房产 平均 价格 是 $9995， 那 么 
jacuzzi 的 价格 差 为 shiftiscwzz; = (1300-995) / 1000 = 30.5%。 如 果 存 在 一 
个 包含 jacuzzi 关 键 词 的 房产 ， 其 价格 只 比 平 均 价 格 高 出 5%， 那 么 我 会 
非常 想 要 了 解 它 。 


请 注意 ， 该 指标 并 非 微 不 足 道 ， 因 为 关键 词 的 效果 将 会 被 聚合 。 
例如 ， 既 包含 jacuzzi 又 包含 discount 的 标题 很 可 能 显示 出 这 些 关 键 词 的 
组 合 效果 。 我 们 收集 并 分 析 的 数据 越 多 ， 预 估 的 准确 度 越 高 。 下 面 我 
们 将 回 到 该 问题 上 来 ， 讲 解 如 何在 一 分 钟 内 实现 一 个 流 媒体 解决 方 


Zo 


11.2 Scrapyd 


现在 ， 我 们 将 要 开始 介绍 Scrapyd。Scrapyd 这 个 应 用 允许 我 们 在 
服务 器 上 部 署 柜 虫 ， 并 使 用 它们 制定 爬 取 的 计划 任务 。 让 我 们 来 感受 


一 下 使 用 它 古 多 么 简单 吧 。 我 们 在 开发 机 中 已 经 预 安装 了 该 应 用 ， 所 
da 第 3 章 中 的 代码 对 其 进行 测试 。 我 们 在 之 前 使 用 了 几乎 
全 相同 的 过 程 ， 在 这 里 只 有 一 个 小 的 变化 。 


首先 ， 我 们 访问 http://localhost:6800/ ， 来 看 一 下 
Scrapyd 的 Web 界 面 ， 如 图 11.1 所 示 。 


rake [Spider | Job PDT Runtime —[Log_tems| ; 


'Scrapyd 
| PY ; [properties easy inn ee NA :00:28.911 5 
: Available projecis@froperties ; [properties easy nso eet een ae 1008 [300 |0:00:03.921566|(Log [Items | 


一 Directory listing for items property) 


Size Content type Content encoding 


: Mow to schedule a spider? 
OO toast oi 548K [texUplain] 


ro schedule a spider you need to use the API (this web UI is Le 280K [text/plain] 


Example using curl: 


curl http://localhost:6800/schedule.json -d pr eat ni =default -d spider=somespider | 


: > © localhost:6800/logs/ 
Directory listing for /logs/ 


: Filename Size Content type Content aci 


open OB [text/plain] Size Content type Content encoding 
i scrapyd.Jog 10K [text/plain] e65827424 lee LeS9eea242ac11000a.log x i aipee 

|; i 'dádfafa6a lee] 1e590040242ac11000a Jog 

'scrapyd.out OB [text/plain] [text/plain] 


图 11.1 Scrapyd 的 Web 界 面 


可 以 看 出 ，Scrapyd 对 于 Jobs 、Items ` Logs 和 Documentation 都 
有 不 同 的 区 域 。 此 外 ， 它 还 提供 了 一 些 指 引 ， 告 知 我 们 如 何 使 用 其 
API 定 制 计划 任务 。 


为 了 完成 该 测试 ， 我 们 必须 先 在 Scrapyd 服 务 器 上 部 署 聆 虫 。 第 一 
步 是 按照 如 下 操作 修改 scrapy .cfg 配置 文件 。 


$ pwd 


/root/book/ch03/properties 


$ cat scrapy.cfg 


[settings] 


default = properties.settings 


[deploy] 


url = http://localhost :6800/ 


project = properties 


基本 上 ， 我 们 所 有 需要 做 的 就 是 去 除 url 一 行 的 注释 。 默 认 的 设置 
已 经 很 合适 了 。 现 在 ， 要 想 部 署 仆 虫 ， 需 要 使 用 scrapyd-client 
提供 的 scrapyd-deploy 工具 。scrapyd-client 曾经 是 Scrapy 的 
一 部 分 ， 不 过 现在 已 经 独立 为 一 个 单独 的 模块 ， 该 模块 可 以 使 用 pip 
install scrapyd-client 安装 (已 经 在 开发 机 中 安装 好 了 该 模 
块 ) 。 


$ scrapyd-deploy 


Packing version 1450044699 


Deploying to project "properties" in 
http://localhost :6800/addversion. 


json 


Server response (200): 


{"status": "ok", "project": "properties", "version": "1450044699", 


"spiders": 3, "node_name": "dev"} 


当 部 署 成 功 后 ， 可 以 在 Scrapyd 的 Web 界 面 主 页 的 Available 
projects 区 域 看 到 该 项 目 。 现 在 ， 可 以 按照 提示 在 该 页 面 提交 一 个 任 


务 。 


$ curl http://localhost:6800/schedule.json -d project=properties - 
d 


spider=easy 


{"status": "ok", "jobid": " d4df...", "node name": "dev"} 


如 果 回 到 Web 界 面 的 Jobs 区 域 ， 可 以 看 到 任务 正在 运行 。 稍 后 可 
以 使 用 schedule .json 返回 的 jobid ， 通 过 cancel1. json 取消 该 


任务 。 


$ curl http://localhost :6800/cancel.json -d project=properties -d 


job=d4df... 


{"status": "ok", "prevstate": "running", "node_name": "dev"} 


请 一 定 记 住 执行 取消 操作 ， 否 则 你 会 浪费 一 段 时 间 的 计算 机 资 
源 。 

非常 好 ! 当 访问 Logs 区 域 时 ， 可 以 看 到 日 志 ; 而 当 访问 Items 区 
域 时 ， 可 以 看 到 刚才 扑 取 的 Ttem。 这 些 都 会 在 一 定 周期 之 后 清空 以 
释放 空间 ， 因 此 在 几 次 假 取 操 作 后 这 些 内 容 可 能 束 不 再 可 用 。 


如 有 果 有 合理 的 理由 ， 比 如 冲突 ， 那 么 我 们 可 以 使 用 http_port 
修改 端口 ， 这 是 Scrapyd 提 供 的 诸多 设置 之 一 。 通 过 访问 
http://scrapyd. readthedocs.org/ 来 了 解 Scrapyd 的 文档 是 
非常 值得 的 。 在 本 章 中 ， 我 们 需要 修改 的 一 个 重要 设置 是 max_proc 
。 如 果 将 该 设置 保留 为 默认 值 0 的 话 ，Scrapyd 将 在 Scrapy 任 务 运 行 时 
允许 4 倍 于 CPU 数量 的 并 发 。 由 于 我 们 将 运行 多 个 Scrapyd 服 务 研 ， 并 
且 大 部 分 可 能 是 在 虚拟 机 当中 的 ， 因 此 我 们 将 会 设置 该 值 为 4， 即 允许 
至 多 4 个 任务 并 发 运行 。 这 与 本 章 的 需求 有 关 ， 而 在 实际 部 署 当 中 ， 一 
般 情 况 下 使 用 默认 值 就 能 够 良好 运行 。 


11.3 分布 式 系统 概述 


对 我 来 说 ， 设 计 该 系统 是 一 个 非常 棒 的 经 历 〈 见 图 11.2) 。 起 
初 ， 我 增加 了 功能 和 复杂 性 ， 以 至 于 不 得 不 要 求 读者 拥有 高 端 便 件 才 
能 运行 这 些 示例 。 这 束 造 成 之 后 的 一 个 紧迫 需求 成 为 简化 一 一 无 论 是 
为 了 保持 便 件 需求 更 加 实际 ， 还 是 确保 本 章 能 够 保持 专注 在 Scrapy 
Es 


图 11.2 ”系统 概述 


最 后 ， 本 章 将 要 使 用 的 系统 包含 我 们 的 开发 机 以 及 几 个 其 他 服务 
器 。 我 们 将 使 用 开发 机 执行 索引 页 面 的 垂直 抓 取 ， 并 从 中 批量 抽取 
URL 。 之 后 ， 将 以 轮 询 的 方式 将 这 些 URL 分 发 到 Scrapyd 节 点 当中 执行 
MER: ma, BAItem h. jl 文件 将 会 通过 FTP 传 输 到 运行 Apache 
Spark 的 服务 器 中 。 什 么 ? FTP? 是 的 ， 我 选择 FTP 和 本 地 文件 系统 ， 
而 不 是 HDFS 或 Apache Kafka 的 原因 是 因为 其 内 存 需求 很 低 ， 并 且 
Scrapy 后 端的 FEED_URI 能 够 直接 支持 。 请 注意 ， 通 过 简单 修改 
Scrapyd 和 Spark 的 配置 ， 我 们 可 以 使 用 Amazon S3 来 存储 这 些 文件 ， 
受 其 带 来 的 元 余 性 、 扩 展 性 等 诸多 特性 。 不 过 ， 这 里 不 会 有 更 多 有 意 
思 的 相关 话题 来 学 习 任何 奇 技 淫 巧 。 


NI 


使 用 FTP 的 一 个 风险 是 Spark 可 能 会 在 其 上 传 过 程 中 看 到 不 完整 的 文 
件 。 为 了 避免 发 生 该 问题 ， 我 们 将 使 用 Pure-FTPd 以 及 一 个 回调 脚本 ， 在 
上 传 完成 后 立即 将 上 传 的 文件 移动 到 /root/items 目录 中 。 


每 隔 儿 秒 ，Spark 将 会 检测 该 目录 (/root/items ) ， 读 取 任 何 
新 文件 ， 形 成 小 批 次 ， 并 执行 分 析 。 我 们 使 用 Apache Sparke NKE 
文 持 Python 作为 其 编程 语言 ， 并 且 还 文 持 沪 。 到 目前 为 止 ， 我 们 可 能 
已 经 使 用 了 一 些 生 命 周 期 相对 较 短 的 爬 取 工作 ， 不 过 现实 世界 中 许多 
疏 取 工作 永远 都 不 会 结束 。 疏 取 工 作 24/7 不 间断 运行 ， 并 提供 用 于 分 
析 的 数据 流 ， 数 据 越 多 其 结果 束 越 精确 。 正 因 如 此 ， 我 们 将 使 用 
Apache Sparkj 进 行 展 示 。 


使 用 Apache Spark 和 Scrapy 并 没有 什么 特殊 之 处 。 你 也 可 以 选择 使 用 
Map-Reduce ` Apache Storm 或 任何 其 他 适合 你 需求 的 框架 。 


在 本 章 中 ， 我 们 并 不 会 将 Item 插入 到 诸如 ElasticSearch 或 MySQL 
等 数据 库 当 中 。 第 9 草 中 介绍 的 技术 在 这 里 同样 适用 ， 不 过 其 性 能 会 很 
精 糕 。 当 你 每 秒 钟 执行 数 千 次 写 入 操作 时 ， 只 有 极 少数 的 数据 库 系 统 
能 够 运行 良好 ， 但 这 正 是 我 们 的 管道 将 会 做 的 事情 。 如 果 我 们 想 要 癌 
数据 库 中 插入 数据 ， 则 需要 遵循 与 使 用 Spark 相 似 的 流程 ， 即 批量 导 


生成 的 Item 文件 。 你 可 以 修改 我 们 的 Spark 示 例 流 程 ， 批 量 导 入 到 任 
意 数 据 库 当中 。 


最 后 需要 注意 的 是 ， 该 系统 并 没有 良好 的 弹性 。 我 们 假设 各 节点 
都 是 健康 的 ， 并 且 任 何 失败 都 不 会 产生 严重 的 业务 影响 。Spark 拥 有 弹 
性 配置 ， 能 够 提供 高 可 用 性 。 而 除了 Scrapyd 的 持久 化 队列 外 ，Scrapy 
并 没有 提供 任何 相关 的 内 建功 能 ， 这 就 意味 着 失败 的 任务 需要 在 闻 点 
恢复 后 才能 重新 启动 。 这 种 方式 对 于 你 的 需求 来 说 ， 也 许 适 合 ， 也 许 
不 适合 。 如 果 对 你 而 言 弹 性 十 分 重要 ， 那 么 你 需要 搭建 监控 和 分 布 式 
队列 方案 (如 基于 Kafka 或 RabbitMQ) ， 来 重启 失败 的 怜 取 工作 。 


11.4 ERAP TB) APR SEH 


为 了 构建 该 系统 ， 我 们 需要 稍微 对 Scrapy 拒 虫 进行 修改 ， 并 且 需 
要 开发 候 虫 中 间 件 。 更 具体 地 说 ， 我 们 必须 执行 如 下 操作 : 


。 调整 索引 页 仆 取 ， 以 最 大 速率 执行 ; 
。 编写 中 间 件 ， 分 批发 送 URL 到 Scrapyd 服 务 妖 ; 
。 使 用 相同 中 间 件 ， 人 允许 在 启动 时 使 用 批量 URL © 


我 们 将 竹 试 使 用 尽 可 能 小 的 改动 来 实现 这 些 变化 。 理 想 情 况 下 ， 
整个 操作 应 该 清晰 、 易 理解 并 且 对 其 依赖 的 吟 虫 代码 透明 。 这 应 该 是 
一 个 基础 架构 层级 的 需求 ， 如 果 想 对 怜 虫 “可 能 数 百 个 ) 进行 修改 来 
实现 它 则 是 一 个 坏 主 意 。 


11.4.1 索引 页 分 片 仆 取 


我 们 的 第 一 步 是 优化 索引 页 朴 取 ， 使 其 尽 可 能 更 快 。 在 开始 之 
前 ， 先 来 设置 一 些 期 望 。 假 设 朴 虫 疏 取 并 发 量 是 16， 并 且 我 们 测量 得 
到 其 与 源 网 站 服务 器 的 延迟 大 约 为 0.25 秒 。 此 时 得 到 的 吞吐 量 最 多 为 
16/0.25 = 64 页 / 秒 。 索 引 页 数量 为 50000 个 详情 页 / 每 个 索引 页 30 个 详 
情 页 链接 = 1667 索 引 页 。 因 此 ， 我 们 期 望 索 引 页 下 载 花 费 的 时 间 大 约 
为 1667/ 64 = 26 秒 多 一 点 。 


让 我 们 以 第 3 章 中 名 为 easy WERF I o HEATER 
Rule 注 释 掉 (callback='parse_item' 的 那个 ) ， 因 为 现在 只 需 
HERRIK ° 


你 可 以 在 GitHub 中 获取 到 本 书 的 全 部 代码 。 下 载 该 代码 ， 可 以 访问 : 


git clone 


https://github.com/scalingexcellence/scrapybook 。 


本 章 中 的 完整 代码 位 于 ch11 目录 当中 。 


如 果 我 们 在 进行 任何 优化 之 前 对 scrapy crawl KIERA H H 
的 情况 进行 计时 ， 可 以 得 到 如 下 结果 。 


$ ls 


properties scrapy.cfg 


$ pwd 


/root/book/chi1/properties 


$ time scrapy crawl easy -s CLOSESPIDER_PAGECOUNT=10 


DEBUG: Crawled (200) <GET ...index_00000.html> (referer: None) 


DEBUG: Crawled (200) <GET ...index_00001.html> (referer: 
...index_00000. 


htm1) 


real 0m4.099s 


AMRLARI TAPTE, BRA RTA BY ETE 26 POAT IB] A SE BY 
1,700 个 页 面 。 通 过 查看 日 志 ， 我 们 发 现 每 个 页 面部 来 自 于 前 一 个 页 面 
的 下 一 页 链接 ， 也 避 是 说 在 任意 时 刻 都 只 有 至 多 一 个 页 面 正 在 执行 朴 
取 。 我 们 的 有 效 并 发 为 1° 我 们 希望 并 行 处 理 ， 得 到 想 要 的 并 发 数量 

(16 个 并 发 请 求 ) 。 我 们 将 对 索引 分 片 ， 并 允许 一 些 额 外 的 分 片 ， 以 
确保 仆 忠 中 的 URL 不 会 不 足 。 我 们 将 会 把 索引 分 为 20 个 段 。 实 际 上 ， 
任何 超过 16 的 数值 都 能 够 增加 速度 ， 不 过 在 超过 20 之 后 所 得 到 的 回报 
圣 递减 趋势 。 我 们 将 通过 如 下 表达 式 计算 每 个 分 片 的 起 始 索引 ID。 


>>> map(lambda x: 1667 * x / 20, range(20)) 


[0, 83, 166, 250, 333, 416, 500, ... 1166, 1250, 1333, 1416, 1500, 
1583] 


因此 ， 我 们 使 用 如 下 代码 设置 start_urls 。 


start_urls = ['http://web:9312/properties/index_%05d.html' % id 


for id in map(lambda x: 1667 * x / 20, range(20))] 


这 可 能 和 你 的 索引 有 很 大 的 不 同 ， 因 此 我 们 没 必要 在 此 处 实现 得 
更 漂亮 。 如 果 还 设 定 了 并 发 设置 (CONCURRENT_REQUESTS ` 
CONCURRENT_REQUESTS_PER_DOMAIN ) 16, JBA 4ia77 eH 
时 ， 将 会 得 到 如 下 结 


$ time scrapy crawl easy -s CONCURRENT_REQUESTS=16 -s CONCURRENT_ 


REQUESTS_PER_DOMAIN=16 


real 0m32.344s 


该 结果 已 经 与 期 望 值 非常 接近 了 “。 我 们 的 下 载 速度 为 1667 个 页 面 
/32 秒 = 52 个 索引 页 / 秒 ， 这 就 意味 着 每 秒 可 以 生成 52x30 = 1560 个 详情 
页 URL。 现 在 ， 可 以 将 垂直 抓 取 的 Rule 的 注释 取消 掉 ， 保 存 文件 作 
为 新 息 虫 分 发 。 我 们 不 需要 对 把 虫 代码 进行 更 多 修改 ， 这 显示 出 我 们 
即将 开发 的 中 间 件 的 强大 以 及 非 侵 入 性 。 如 果 只 使 用 开发 服务 器 运行 
scrapy crawl ， 假 设 处 理 详情 页 的 速度 和 索引 页 处 理 时 一 样 快 ， 那 
么 它 将 花费 不 少 于 50000 / 52 = 16 分 钟 时间 完 成 仆 取 。 


本 节 有 两 个 关键 内 容 。 在 学 习 完 第 10 草 之 后 ， 我 们 已 经 可 以 实现 
真正 的 工程 。 我 们 能 够 精确 计算 出 系统 期 望 得 到 的 性 能 ， 并 且 确 保 在 
达到 该 性 能 之 前 不 会 停止 〈 在 合理 范围 内 ) 。 第 二 个 要 记 住 的 重要 事 
情 是 ， 由 于 索引 页 爬 取 提供 了 详情 页 ， 故 取 的 总 吞吐 量 将 会 是 其 吞吐 
量 的 最 小 值 。 如 果 我 们 生成 的 URL 比 Scrapyd 能 够 消费 得 更 快 ， 那 么 
URL 将 会 堆积 在 其 队列 当中 。 反 过 来 ， 如 果 生 成 的 URL 太 慢 ，Scrapyd 
将 会 拥有 过 剩 的 无 法 利用 的 能 


11.4.2 分 批 仆 取 URL 


现在 ， 我 们 准备 开发 处 理 详情 页 URL 的 基础 架构 ， 日 的 是 对 其 进 
THER MCR ` atta RSS GScrapyd AH, MATERIEL ° 


如 果 碍 看 第 8 章 中 的 Scrapy 架 构 ， 就 可 以 很 容易 地 得 出 结论 ， 这 是 
疏 虫 中 间 件 的 任务 ， 因 为 它 实 现 了 process_spider_output() , 
在 到 达 下 载 嚣 之前， 在 此 处 处 理 请 求 ， 并 能 够 中 止 它们 。 我 们 在 实现 
中 限制 只 支持 基于 CrawlSpider 的 爬虫 ， 另 外 还 只 支持 简单 的 GET 
请 求 。 如 果 需 要 更 加 复杂 ， 比 如 POST 或 有 权限 验证 的 请 求 ， 那 么 需要 


开发 更 复杂 的 功能 来 扩展 参数 、 请 求 头 ， 甚 至 可 能 在 每 次 批量 运行 后 
重新 登录 。 


在 开始 之 前 ， 先 来 快速 浏览 一 下 Scrapy 的 GitHub。 我 们 将 回顾 
SPIDER_MIDDLEWARES_BASE 设置 ， 以 查看 Scrapy 提 供 的 参考 实 
现 ， 以 便 尽 最 大 可 能 复 用 它 。Scrapy 1.0 包 含 如 下 把 虫 中 间 件 : 
HttpErrorMiddleware »OffsiteMiddleware ` 


RefererMiddleware ` UrlLengthMiddleware 以 及 
DepthMiddleware“。 在 快速 了 解 它们 的 实现 之 后 ， 我 们 发 现 
OffsiteMiddleware (只 有 60 行 代码 ) 与 想 要 实现 的 功能 很 相似 。 
EATEN A Aallowed_domains 属性 ， 把 URL 限 制 在 某 些 特定 域名 
中 。 我 们 可 以 使 用 相似 的 模式 吗 ? 和 0ffsiteMiddleware 实现 中 丢 
弃 URL 不 同 ， 我 们 将 对 这 些 URL 进 行 分 批 并 发 送 到 Scrapyd 广 点 中 。 事 
实证 明 这 是 可 以 的 。 下 面 是 实现 的 部 分 代码 。 


def _ init__(self, crawler): 
settings = crawler.settings 
self._target = settings.getint( 'DISTRIBUTED_TARGET_RULE', -1) 
self. seen = set() 
self._urls = [] 
self._batch_size = settings.getint('DISTRIBUTED_BATCH_SIZE', 
1000) 


def process_spider_output(self, response, result, spider): 
for x in result: 
if not isinstance(x, Request): 
yield x 
else: 
rule = x.meta.get('rule') 


if rule == self._target: 
self._add_to_batch(spider, x) 


def _add_to_batch(self, spider, request): 
url = request.url 
if not url in self._seen: 
self. _seen.add(url) 
self._urls.append(ur1l) 
if len(self._urls) >= self._batch_size: 
self._flush_urls(spider ) 


process_spider_output() 既 处 理 Item 也 处 理 Request 。 

我 们 只 想 处 理 Request ， 因 此 我 们 对 其 他 所 有 内 容 执行 yie1d 操 
作 。 如 果 查 看 CrawlSpider 的 源 代码 ， 就 会 注意 到 将 Request / 
Response 映射 到 Rule 的 方式 是 通过 其 meta 字典 的 名 为 'rule' 的 
整 型 字段 。 我 们 检查 该 数值 ， 如 有 果 它 指 癌 目标 的 Rule 

(DISTRIBUTED_TARGET_RULE 设置 ) ， 则 会 调用 
_add_to_batch() 添加 URL 到 当前 批 次 。 然 后 ， 丢 弃 该 Request 

。 对 其 他 所 有 Request 执行 yie1d 操作 ， 比 如 下 一 页 链接 、 无 变化 
的 链接 。_add_to_batch() 方法 实现 了 一 个 去 重 机 制 。 不 过 很 遗憾 
的 是 ， 由 于 前 一 下 中 描述 的 分 片 流程 ， 我 们 可 能 对 少数 URL 抽 取 两 
次 。 我 们 使 用 _seen 集合 检测 并 丢弃 重复 值 。 然 后 ， 把 这 些 URL 添 加 
到 _urls 列表 中 ， 如 果 其 大 小 超过 _batch_size 

(DISTRIBUTED_BATCH_SIZE 设置 ) ， 就 会 触发 调用 
_flush_urls()。 该 方法 提供 了 如 下 的 关键 功能 。 


def _ init__(self, crawler): 


self._targets = 

self._batch = 1 

self._project = settings.get('BOT_NAME' ) 

self. feed uri = settings.get('DISTRIBUTED_TARGET_FEED_URL', 
None) 

self. _scrapyd_submits_to_ wait = [] 


settings.get("DISTRIBUTED_TARGET_HOSTS") 


def _flush_urls(self, spider): 


if not self._urls: 
return 


target = self._targets[(self._batch-1) % len(self._targets) ] 


("project", self._project), 

("spider", spider.name), 

("setting", "FEED_URI=%s" % self. _feed_uri), 
( 


json_urls = json.dumps(self._urls) 
data.append(("setting", "DISTRIBUTED _START_URLS=%s" % 
json_urls)) 


d = treq.post("http://%s/schedule.json" % target, 
data=data, timeout=5, persistent=False) 


self. _scrapyd_submits_to_wait.append(d) 


self._urls = [] 
self._batch += 1 


首先 ， 它 使 用 一 个 批 次 计数 器 «(batch ) 来 决定 要 将 该 批 次 发 
送 到 哪个 Scrapyd 服 务 器 中 。 我 们 在 _targets 
(DISTRIBUTED_TARGET_HOSTS 设置 ) 中 保持 更 新 可 用 的 服务 


B, 


8。 人 然后， 构造 POST 请 求 到 Scrapyd 的 schedule .json。 这 比 之 前 
通过 cur1 执行 的 更 加 高 级 ， 因 为 它 传递 了 一 些 精心 挑选 的 参数 。 基 
于 这 些 参数 ，Scrapyd 可 以 有 效 地 计划 运行 任务 ， 类 似 如 下 所 示 。 


scrapy crawl distr \ 
-S DISTRIBUTED_START_URLS='[".../property_000000.htm1", ... ]' \ 
-s FEED_URI='ftp://anonymous@spark/%(batch)s_%(name)s_ %(time)s.jl' 


\ 
-a batch=1 


除了 项 目 和 疏 虫 名 外 ， 我 们 还 向 怜 虫 传递 了 一 个 FEED_URI 设 
置 。 我 们 可 以 从 DISTRIBUTED TARGET _ FEED_URL 设 置 中 获取 该 
值 。 


由 于 Scrapy 支 持 FTP， 我 们 可 以 让 Scrapyd 通 过 匿名 FTP 的 方式 将 的 
取 到 的 Item 文件 上 传 到 Spark 服 务 器 中 。 格 式 包 含 候 虫 名 (% 
(name)s ) 和 了 时间 (%(time)s) 。 如 果 只 使 用 这 些 ， 那 么 当 两 个 文 
件 的 创建 时 间 相 同时 ， 最 终 会 产生 冲突 。 为 了 避免 意外 禾 盖 ， 我 们 还 
添加 了 一 个 %(batch ) s 参数 。 默 认 情 况 下 ，Scrapy 不 知道 任何 关于 批 
次 的 事情 ， 因 此 我 们 需要 找到 一 种 方式 来 设置 该 值 。Scrapyd 中 
schedule.json 这 个 API 的 一 个 有 趣 特性 是 ， 如 果 人 参数 不 是 设置 或 
少数 几 个 已 知 参 数 的 话 ， 它 将 会 被 作为 参数 传 给 爬虫 。 默 认 情 况 下 ， 
拒 虫 参数 将 会 成 为 候 虫 属性 ， 未 知 的 FEED_URI 参数 将 会 去 查阅 爬虫 
的 属性 。 因 此 ， 通 过 传递 batch 参数 给 schedule .json ， 我 们 可 以 
在 FEED_URI 中 使 用 它 以 避免 冲突 。 


最 后 一 步 是 使 用 编码 为 JSON 的 该 批 次 详情 页 URL 编 译 为 
DISTRIBUTED_ START_URLS 设置 。 除 了 熟悉 和 简单 之 外 ， 使 用 该 
格式 并 没有 什么 特殊 的 理由 。 任 何 文 本 格式 都 可 以 做 到 。 


通过 命令 行 向 Scrapy 传 输 大 量 数据 丝毫 也 不 优雅 。 在 一 些 时候 ， 你 想 
要 将 参数 存储 到 数据 存储 中 (比如 Redis) ， 并 且 只 向 Scrapy 传 输 ID。 如 果 
想 要 这 样 做 ， 则 需要 在 _flush_urls( ) 和 : 
process_start_requests() 中 做 一 些小 的 改变 。 


我 们 使 用 treq,post() 处 理 POST 请 求 。Scrapyd 对 持久 化 连接 
处 理 得 不 是 很 好 ， 因 此 使 用 persistent=False 禁用 该 功能 。 为 了 
安全 起 见 ， 我 们 还 设置 了 一 个 5 秒 的 超时 时 间 。 有 趣 的 是 ， 我 们 为 该 请 
求 在 _scrapyd_submits_to_wait 列表 中 存储 了 延迟 函数 ， 后 续 
内 容 中 将 会 进行 讲解 。 关 闭 该 函数 时 ， 我 们 将 重 置 _urls 列表 ， 并 增 
加 当前 的 _batch 值 。 


出 人 意料 的 是 ， 我 们 在 关闭 操作 处 理 絮 中 发 现 了 如 下 所 示 的 诸多 


def _ init__(self, crawler): 


crawler.signals.connect(self. closed, signal=signals.spider_ 
closed) 


@defer.inlineCallbacks 

def _closed(self, spider, reason, signal, sender): 
# Submit any remaining URLS 
self. _flush_urls(spider ) 


yield defer.DeferredList(self. scrapyd_submits_to_wait) 


_close() 将 会 在 我 们 按 下 Ctrl + C RERE RAT HEYA ° FEI 
哪 种 情况 ， 我 们 都 不 希望 丢失 属于 最 后 一 个 批 次 的 任何 URL， 因 为 它 
们 还 没有 被 发 送出 去 。 这 就 是 为 什么 我 们 在 _close( ) 方法 中 首先 要 
做 的 是 调用 _flush_urls(spider ) 清空 最 后 的 批 次 的 原因 。 第 二 
个 问题 是 ， 作 为 非 阻塞 代码 ， 任 何 tredq.post( ) 在 停止 仆 取 时 都 可 
能 完成 或 没有 完成 。 为 了 避免 丢失 任何 批 次 ， 我 们 将 使 用 之 前 提 及 的 
scrapyd_submits_to_wait 列表 ， 来 包含 所 有 的 treq.post() 


的 延迟 函数 。 我 们 使 用 defer .DeferredList() 进行 等 待 ， 直 到 全 
部 完成 。 由 于 _close() 使 用 了 @defer .in1inecallbacks ， 我 们 
只 需 对 其 执行 yield 操作 ， 并 在 所 有 请 求 完成 之 后 进行 恢复 即 可 。 


总 结 来 说 ， 在 DISTRIBUTED_START_URLS 设置 中 包含 批量 URL 
的 任务 将 被 送 往 Scrapyd 服 务 右 ， 并 在 这 些 Scrapyd 服 务 絮 中 运行 相同 
的 爬虫 。 很 明显 ， 我 们 需要 某 种 方式 以 使 用 该 设置 初始 化 


start_urls ° 


11.4.3 ”从 设置 中 获取 初始 URL 


当 你 注意 到 让 虫 中 间 件 提供 的 用 于 处 理 爬 虫 给 我 们 的 
start_requests 的 process_start_requests( ) 方法 时 ， 就 会 
感受 到 扑 虫 中 间 件 是 怎样 满足 我 们 的 需求 的 。 我 们 检测 
DISTRIBUTED_START_URLS 设置 是 否 已 被 设 定 ， 如 果 是 的 话 ， 则 解 
码 JSON 并 使 用 其 中 的 URL 对 相关 的 Request 进行 yie1d 操作 。 对 于 
这 些 请 求 ， 我 们 设置 CrawlSpider 的 _response_download() 方 
法 作为 回调 ， 并 设置 neta['rule'] 参数 ， 以 便 其 Response 能 够 被 
适当 的 Rule 处 理 。 坦 白 来 说 ， 我 们 查阅 了 Scrapy 的 源 代码 ， 发 现 
CrawlSpider 创建 Request 的 方式 使 用 了 相同 的 方法 。 在 本 例 中 ， 
代码 如 下 所 示 。 


def _ init__(self, crawler): 


self. _start_urls = settings.get('DISTRIBUTED_START_URLS', None) 
self.is_ worker = self. start_urls is not None 


def process_start_requests(self, start_requests, spider): 
if not self.is_worker: 
for x in start_requests: 


yield x 


else: 
for url in json.loads(self._start_urls): 
yield Request(url, spider. _response_downloaded, 
meta={'rule': self._target}) 


我 们 的 中 间 件 已 经 准备 好 了 。 可 以 在 settings.py 中 启用 它 并 
进行 设置 。 


SPIDER_MIDDLEWARES = { 
"properties.middlewares.Distributed': 100, 


} 
DISTRIBUTED_TARGET_RULE = 1 
DISTRIBUTED_BATCH_SIZE = 2000 
DISTRIBUTED_TARGET_FEED_URL = ("ftp://anonymous@spark/" 
"%(batch)s_ %(name)s_%(time)s.j1") 
DISTRIBUTED_TARGET_HOSTS = [ 
"scrapyd1: 6800", 
"scrapyd2: 6800", 
"scrapyd3: 6800", 


一 些 人 可 能 会 认为 DISTRIBUTED_TARGET_RULE 不 应 该 作为 设 
置 ， 因 为 不 同 仆 虫 之 间 可 能 是 不 一 样 的 。 你 可 以 将 其 认为 是 默认 值 ， 
并 且 可 以 在 仆 虫 中 使 用 custom_settings 属性 进行 履 写 ， 比 如 : 


custom_settings = 
"DISTRIBUTED_TARGET_RULE': 3 
} 


不 过 在 我 们 的 例子 中 并 不 需要 这 么 做 。 我 们 可 以 做 一 个 测试 运 
行 ， 爬 取 作 为 设置 提供 的 单个 页 面 。 


$ scrapy crawl distr -s \ 


DISTRIBUTED_START_URLS=' ["http: //web:9312/properties/property_0000 
00.htm1"]' 
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scrapy crawl distr -s \ 


DISTRIBUTED_START_URLS=' ["http: //web:9312/properties/property_0000 


-S FEED_URI='ftp://anonymous@spark/%(batch)s %(name)s %(time)s.j1l' 
-a batch=12 


如 果 你 通过 ssh 登 录 到 Spark 服 务 器 中 〈 稍 后 会 有 更 多 介绍 ) ,将 
会 看 到 一 个 文件 位 于 /root/items 目录 中 ， 比 如 
12 distr_date_time.jl ° 
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使 用 它 作 为 起 总 ， 实 现 满 足 目 己 特 殊 需 求 的 版 本 。 你 可 能 需要 适 配 的 
事情 包括 如 下 内 容 。 


。 支持 的 息 虫 类 型 。 比 如 ， 一 个 不 局 限于 CrawlSpider 的 替代 方 
案 可 能 需要 你 的 爬虫 通过 适当 的 meta 以 及 采用 回调 命名 约定 的 
方式 来 标记 分 布 式 请 求 。 


。 问 Scrapyd 传 输 URL 的 方式 。 你 可 能 希望 使 用 特定 域名 信息 来 减少 
传输 的 信息 量 。 比 如 ， 在 本 例 中 ， 我 们 只 传输 了 房产 的 ID 。 

。 你 可 以 使 用 更 优雅 的 分 布 式 队列 解决 方案 ， 使 候 虫 能 够 从 失败 中 
恢复 ， 并 允许 Scrapyd 将 更 多 的 URL 提 区 到 批 处 理 。 

。 你 可 以 动态 填充 目标 服务 套 列 表 ， 以 文 持 按 需 扩展 。 


11.4.4 ”在 Scrapyd 服 务 器 中 部 署 项 目 


为 了 能 够 在 我 们 的 3 台 Scrapyd 服 务 咒 中 部 署 聆 虫 ， 我 们 需要 将 这 3 
台 服 务 器 添加 到 scrapy .cfg 文件 中 。 该 文件 中 的 每 个 
[deploy:target-name] 区 域 都 定义 了 一 个 新 的 部 署 目标 。 


$ pwd 


/root/book/chi1/properties 


$ cat scrapy.cfg 


[deploy :scrapyd1] 


url = http://scrapyd1:6800/ 


[deploy:scrapyd2] 


url = http://scrapyd2:6800/ 


[deploy: scrapyd3] 


url = http://scrapyd3:6800/ 


可 以 通过 scrapyd-deploy -1 查询 当前 可 用 的 目标 。 


$ scrapyd-deploy -1 


scrapyd1 http://scrapyd1:6800/ 


scrapyd2 http://scrapyd2:6800/ 


scrapyd3 http://scrapyd3:6800/ 


通过 scrapyd-deploy <target-name> ， 可 以 很 容易 地 部 署 


任意 服务 器 。 


$ scrapyd-deploy scrapyd1 


Packing version 1449991257 


Deploying to project "properties" in 
http: //scrapyd1:6800/addversion. json 


Server response (200): 


{"status": "ok", "project": "properties", "version": 


"Spiders": 2, "node_name": "scrapydi"} 


"1449991257", 


该 过 程 会 留 给 我 们 一 些 额 外 的 目录 和 文件 (build ` 
project.egg-info ` setup.py) ， 我们 可 以 安全 地 删除 它们 。 
本 质 上 ，scrapyd-deplo``y 所 做 的 事情 束 是 打包 你 的 项 目 ， 并 使 
用 addversion.json 上 传 到 目标 Scrapyd 服 务 絮 当中 。 


之 后 ， 当 我 们 使 用 scrapyd-deploy -L 查询 单 台 服务 器 时 ， 可 
以 确认 项 目 是 否 已 经 被 成 功 部 署 ， 如 下 所 示 。 


$ scrapyd-deploy -L scrapyd1 


properties 


我 还 在 项 目 目 录 中 使 用 touch 创建 了 3 个 空 文件 (scrapyd1-3 
) 。 使 用 scrapyd* 扩展 为 文件 名 称 ， 同 样 也 是 目标 服务 絮 的 名 称 。 
之 后 ， 你 可 以 使 用 一 个 bash 循 环 部 署 所 有 服务 器 : for i in 
scrapyd*; do scrapyd-deploy $i; done ° 


11.5 ”创建 自 定义 监控 命令 


如 果 想 监控 多 台 Scrapyd 服 务 器 的 候 虫 进程 ， 则 需要 手动 执行 。 这 
是 一 个 很 好 的 机 会 ， 能 够 让 我 们 练习 到 目前 为 止 所 见 到 的 一 切 知识 ， 
创建 一 个 原始 的 Scrapy 命 令 一 一 scrappy monitor ， 用 于 监控 一 组 


Scrapyd 服 务 器 。 我 们 将 该 文件 命名 为 nonitor ,py ， 并 且 在 
settings. py 文件 中 添加 COMMANDS_MODULE = 
'properties.monitor' 。 通 过 快速 浏览 Scrapyd 的 文档 ， 我 们 发 现 
listjobs.json 这 个 API 可 以 为 我 们 提供 任务 相关 的 信息 。 如 果 想 
要 找到 给 定 目 标的 基础 URL， 可 以 猜 到 它 一 定 在 scrapyd-deploy 
代码 中 的 某 个 地 方 ， 从 而 可 以 让 我 们 在 单个 文件 中 找到 它 。 如 果 查 看 
https://github.com/scrapy/scrapyd- 
client/blob/master/scrapyd-client/scrapyd-deploy, 
很 快 就 会 发 现 _get_target() 函数 (由 于 其 实现 没有 添加 太 多 值 ， 
因此 我 会 忽略 它 ) ， 在 该 函数 中 将 会 给 我 们 提供 目标 名 称 及 其 基础 
URL ° KET! 我 们 开始 实现 该 命令 的 第 一 部 分 吧 ， 其 代码 如 下 所 
示 。 


class Command(ScrapyCommand) : 
requires_project = True 


def run(self, args, opts): 
self. _to_monitor = {} 
for name, target in self._get_targets().iteritems(): 
if name in args: 
project = self.settings.get('BOT_NAME' ) 
url = target['url'] + "listjobs.json?project=" + 
project 

self. _to_monitor[name] = url 


l = task.LoopingCall(self._ monitor) 
l.start(5) # call every 5 seconds 


reactor.run() 


目前 我 们 所 看 到 的 实现 还 是 很 简单 的 。 它 使 用 目标 名 称 和 我 们 想 
要 监控 的 API 地 址 填充 to_monitor 字典 。 然 后 ， 我 们 使 用 


task.LoopingCall() 计划 到 _monitor( ) 方法 的 定期 调用 。 
_monitor() 方法 使 用 了 treq 和 延迟 操作 ， 而 我 们 使 用 了 
@defer.inlineCallbacks 来 简化 其 实现 。 下 面 是 其 代码 (已 忽略 
一 些 错误 处 理 和 装饰 ) 。 


@defer.inlineCallbacks 
def _monitor(self): 
all_deferreds = [] 
for name, url in self._to_monitor.iteritems(): 
d = treq.get(url, timeout=5, persistent=False) 
d.addBoth(lambda resp, name: (name, resp), name) 
all_deferreds.append(d) 


all_resp = yield defer.DeferredList(all_deferreds) 


for (success, (name, resp)) in all_resp: 
json_resp = yield resp.json() 
print "%-20s running: %d, finished: %d, pending: %d" % 
(name, len(json_resp['running']), 
len(json_resp['finished']), len(json_resp[ 'pending']) ) 


上 面 这 些 行 已 经 包含 了 我 们 知道 的 几乎 所 有 Twisted 技 术 。 我 们 使 
用 treq 调用 Scrapyd 的 API， 并 且 使 用 defer .DeferredList 立即 
处 理 所 有 啊 应 。 当 我 们 的 所 有 结果 进入 到 a1ll_resp 之 后 ， 则 开始 迭 
代 并 获取 其 JSON 对 象 。treq Response 的 json( ) 方法 将 会 返回 延 
迟 操作 ， 而 不 是 真实 值 ， 我 们 对 其 执行 了 yie1d 操作 ， 并 会 在 未 来 的 
某 个 时 间 点 恢复 其 真实 值 。 最 后 一 步 ， 我 们 打印 出 结 采 。JSON 啊 应 包 
舍 竺 处理、 运行 中 及 已 完成 任务 列表 的 信息 ， 我 们 将 打印 出 它们 的 长 
度 。 


11.6 ”使 用 Apache Spark 流 计算 偏 移 量 


此 刻 ， 我 们 的 Scrapy 系 统 功能 齐全 。 现 在 ， 让 我 们 快速 看 一 下 
Apache Spark 的 功能 。 


在 本 划 最 开始 介绍 的 公式 shift。 非常 简单 好 用 ， 但 是 无 法 有 效 实 
现 。 我 们 可 以 通过 两 个 计数 需 计 算 Erice ， 使 用 2-nwoms 个 计数 器 计算 
Pricewtn ， 每 个 新 价格 只 需 更 新 其 中 的 4 个 。 不 过 计算 Pricewithout 则 是 
一 个 很 大 的 问题 ， 因 为 对 于 每 个 新 价格 来 说 ， 都 需要 更 新 2:(ni6ws -1) 
个 计数 器 。 比 如 ， 我 们 需要 添加 jacuzzi 的 价格 到 每 个 Priceyjiinow 计数 器 
中 ， 而 不 是 只 有 jacuzzi 这 一 个 。 这 会 造成 算法 由 于 包含 大 量 条 件 而 不 
可 行 。 


为 了 解决 该 问题 ， 我 们 所 能 注意 到 的 是 ， 如 果 我 们 将 带 某 个 条 件 
的 房产 价格 ， 与 不 带 相 同 条 件 的 房产 价格 相 加 ， 将 会 得 到 所 有 房产 的 
价格 (很 明显 ! ) ， 即 2Price = ZPrice | „ip +2Price | without ° KEE, 不 
带 某 个 条 件 的 房产 平均 价格 可 以 使 用 如 下 的 代价 很 小 的 操作 进行 计 
H o 


2 Pricewithout a: Price — P Price | without 


Pricewithout = = 
Navithout N 一 Nwith 


使 用 该 公式 ， 偏 移 公 式 变 为 如 下 所 示 。 


Shi Z 2, Price|with X, Price — D Price|with y Price 
Shi ftterm = e a ae 一 一 | -一 一 - 


Nowith N 一 Nwith 
现在 让 我 们 看 看 如 何 实现 该 公式 。 请 注意 此 处 不 是 Scrapy 的 代 

码 ， 因 此 感到 有 些 阳 生 是 很 正 芝 的 ， 不 过 你 仍然 可 以 不 费 太 多 力气 吏 

能 阅读 并 理解 该 代码 。 你 可 以 在 boostwords .py 中 找到 该 应 用 。 请 


记 住 该 代码 中 包含 很 多 复 洒 的 测试 代码 ， 你 可 以 安全 地 忽略 它们 。 其 
核心 代码 如 下 所 示 。 
# Monitor the files and give us a DStream of term-price pairs 


raw_data = raw data = ssc.textFileStream(args[1]) 
word_prices = preprocess(raw_data) 


# Update the counters using Spark's updateStateByKey 
running_word_prices = 
word_prices.updateStateByKey(update_state_function) 


# Calculate shifts out of the counters 
shifts = running_word_prices.transform(to_shifts) 


# Print the results 
shifts.foreachRDD(print_shifts) 


Spark 使 用 所 谓 的 DStream 表示 数据 流 。textFileStream() 
方法 监控 文件 系统 的 目录 ， 当 它 检测 到 新 文件 时 ， 将 会 从 中 获取 数据 
fit ° preprocess() 函数 将 其 转变 为 条 件 / 价 格 对 的 数据 流 。 我 们 通 
过 Spark 的 updateStateByKey( ) 方法 ， 使 用 
update_state_function() 函数 ， 在 运行 的 计数 器 中 聚合 这 些 条 
件 / 价 格 对 。 最 后 ， 通 过 运行 to_shifts() 计算 偏 移 量 ， 并 使 用 
print_shifts() 函数 打印 出 最 佳 结果 。 我 们 的 大 部 分 功能 都 很 简 
单 ， 它 们 只 是 按照 对 Spark 高 效 的 方式 形成 数据 。 最 有 意思 的 例外 是 我 
们 的 to_shifts() 函数 。 


def to_shifts(word_prices): 


(sumO, cntO) = word_prices.values().reduce(add_tuples) 
avg0 = Sum9 / cntoO 


def calculate_shift((isum, icnt)): 
avg_with = isum / icnt 
avg_without = (sumO - isum) / (cntO - icnt) 
return (avg_with - avg_without) / avgO 


return word_prices.mapValues(calculate_shift) 


它 如 此 紧密 地 遵循 公式 ， 令 人 印象 非常 深刻 。 除 了 其 简单 性 之 
外 ，Spark 的 mapValues( ) 使 我 们 的 (可 能 多 台 ) Spark 服 务 器 能 够 以 
最 小 网 络 开 销 高 效 运 行 calculate_shift 。 


我 通常 使 用 4 个 终端 查看 爬 取 的 完成 进度 。 为 了 使 本 书目 成 一 体 ， 
因此 我 还 为 你 提供 了 打开 到 相关 服务 怖 终端 的 vagrant ssh 
( 见 图 11.3) 。 


root@dev: ~/book/ch11/ 


CONTAINER CPU % MEM USAGE / LIMIT scrapyd1 running; 4, finished; 13, pending: 
dev 0.02% 60.2 MB / 4,145 GB R scrapyd2 running: 4, finished: 13, pending: 
es 0.32% 245.2 MB Q a scrapyd3 running: 4, finished: 12, pending: 
mysql 0.05% 534.7 MB 

redis 0.12% 7.733 MB 

scrapyd1 130.50% 204,7 MB 

scrapyd2 117.24% 193.9 MB 
EEE] 104.90% 197.7 MB 

spark 1.02% 753.3 MB 

web 37.97% 35.12 MB / 


scrapybook 一 root@spark; ~ — S... 
root@spark: ~ + 


2015-12-13 16:04: [properties.middlewares] : Posting with 2000 URLs scrapyd2: > ‘, 0.37739569641092147), 
2015-12-13 16:04:36 [properties.middlewares] ; Posting with 2000 URLs scrapyd3; @. 2609822763035133), 
2015-12-13 16:04:37 [properties .middlewares] : Posting with 2000 URLs scrapyd1: @.17968955547361667), 
2015-12-13 16:04:39 [properties.middlewares] : Posting with 2000 URLs scrapyd2: @.16255286743694053), 
2015-12-13 16:04:40 [properties.middlewares] : Posting with 2000 URLs scrapyd3: 14266264458585862), 
2015-12-13 16:04:42 [properties.middlewares] : Posting with 2000 URLs scrapydl1: 
2015-12-13 16:04:43 [properties.middlewores] : Posting with 2000 URLs scrapyd2: . 165978398424521), 
2015-12-13 16:04:45 [properties middlewares] : Posting with 2000 URLs scrapyd3: -@. 28388620856061686), 
2015-12-13 16:04:46 [properties .middlewares] : Posting with 2000 URLs scrapyd1: 3503946343514336), 
2015-12-13 16:04:47 [scrapy] INFO: Closing spider (finished) 0. 3673718785236563), 
2015-12-13 16:04:47 [properties.middlewares] INFO: Posting batch with 570 URLs to scrapyd2:6800 . 38401972065998013)] 
2015-12-13 16:04:47 [scrapy] INFO: Dumping Scrapy stats: 

{'downloader/request_bytes': 474372, 

"downloader/request_count’: 1686, 

"downloader/request_method_count/GET"': 1686, 

‘downloader/response_bytes': 34321988, 

'downloader/response_count': 1686, 

‘downloader/response_status_count/2@@': 1686, 

"dupefilter/filtered': 19, 

"finish_reason'’; ‘finished’, 

*finish_time'; datetime.datetime(2@15, 12, 13, 16, 4, 47, 681065), 

"Log_count/INFO’: 33, 

‘request_depth_max': 85, 

' response_received_count 1686, ， b kich 
*scheduler/dequeued': 1686, 3 cd DOOKICN 

"scheduler/dequeuved/memory': 1686, for i in scrapyd’: do dorapye: deploy $i; done 
'scheduler/enqueved': 1686, 

*scheduler/enqueued/memory': 1686, scrapy crawl distr 

‘start_time’: datetime.datetime(2@15, 12, 13, 16, 4, 9, 430900} 

2015-12-13 16:04:47 [scrapy] INFO; Spider closed (finished) 

root@dev :~/book/ch11/properties# 


图 11.3 ”使 用 4 个 终端 监控 把 取 


在 终端 1 中 ， 我 言 欢 监控 多 人 台 服 务 占 的 CPU 和 内 存 使 用 率 。 这 有 助 
于 识别 和 修复 潜在 问题 。 要 想 局 动 它 ， 可 运行 如 下 命令 


$ alias provider_id="vagrant global-status --prune | grep 'docker- 


provider' | awk '{print \$1}'" 


$ vagrant ssh $(provider_id) 


$ docker ps --format "{{.Names}}" | xargs docker stats 


前 面 两 行 稍微 复杂 的 代码 允许 通过 ssh 登 录 到 docker provider VM 
中 。 如 有 果 使 用 的 不 是 虚拟 机 ， 而 是 运行 在 docker 驱 动 的 Linux 机 右上 
那么 只 需要 最 后 一 行 。 


第 2 个 终端 同样 用 于 诊断 ， 一 般 按照 如 下 命令 使 用 它 运行 Scrapy 


monitor 。 


$ vagrant ssh 


$ cd book/chi1/properties 


$ scrapy monitor scrapyd* 


请 记 住 使 用 scrapyd* 以 及 以 服务 器 名 称 命名 的 空 文件 ， 
scrapy monitor scrapyd* 将 被 扩展 为 scrapy monitor 
scrapydi scrapyd2 scrapyd3 ° 


第 3 个 终端 是 我 们 的 开发 机 ， 我 们 在 这 里 启动 仆 虫 。 除 此 之 外 ， 大 
部 分 时 间 是 空 几 的 。 如 果 想 要 局 动 一 个 新 的 仆 虫 ， 可 以 执行 如 下 命 


$ vagrant ssh 


$ cd book/ch11/properties 


$ for i in scrapyd*; do scrapyd-deploy $i; done 


$ scrapy crawl distr 


最 后 两 行 症 最 基本 的 。 前 和 完 ， 我 们 使 用 for 循环 及 scrapyd- 
deploy 部 署 聆 虫 到 服务 右 中 。 然 后 ， 使 用 scrapy crawl distr 
启动 仆 取 操作 。 我 们 也 可 以 运行 更 少 的 扑 取 操作 ， 比 如 scrapy 
crawl distr -s CLOSESPIDER_PAGECOUNT=100 , ERKA 
100 个 索引 页 ， 相 当 于 大 概 3000 个 详情 页 。 


最 后 的 第 4 个 终端 用 于 连接 Spark 服 务 器 ， 我 们 将 使 用 它 运 行 数 据 
流 分 析 任 务 。 


$ vagrant ssh spark 


book items 


$ spark-submit book/ch1i1/boostwords.py items 


只 有 最 后 一 行 是 最 基本 的 ， 在 该 行 中 运行 了 boostwords .py , 
并 将 我 们 本 地 的 items 目 孙 提供 给 监控 。 有 时 ， 我 还 会 使 用 watch 
Is -1 items 来 关注 Item 文 件 的 到 达 情 况 。 


完 竟 哪些 关键 词 对 价格 影响 最 大 呢 ? 我 把 它 作为 惊喜 ， 留 给 那些 
一 直 跟 随 下 来 的 读者 们 。 


11.8 ”系统 性 能 


在 性 能 方面 ， 结 采 很 大 程度 上 取决 于 我 们 的 硬件 情况 ， 以 及 我 们 
给 虚拟 机 的 CPU 数量 和 内 存 大 小 。 在 实际 部 署 中 ， 我 们 可 以 获得 水 平 
的 伸缩 性 ， 可 以 让 我 们 以 服务 占 人 允许 的 最 快速 度 运行 仆 取 。 


对 于 给 定 设置 情况 下 的 理论 最 大 值 是 : 3 个 服务 器 . 4 个 处 理 器 / 服 
Bes: 16 个 并 发 请 求 . 4 个 页 面 / 秒 〈 通 过 页 面 下 载 延 迟 定义 ) = 768 个 


页 面 / 秒 。 


实践 时 ， 在 Macbook Pro 中 使 用 分 配 了 4GB 内 存 以 及 8 核 CPU 的 
VirtualBox 虚 拟 机 ， 我 可 以 在 2 分 40 秒 的 时 间 内 获取 50,000 个 URL， 也 
就 是 大 约 315 个 页 面 / 秒 。 在 拥有 2 个 vCPU 和 8GB 内 存 的 Amazon EC2 
m4.large 实 例 中 ， 由 于 有 限 的 CPU 和 能力， 花费 了 6 分 12 秒 的 时 间 ， 即 134 
个 页 面 / 秒 。 在 拥有 16 个 vCPU 和 64GB 内 存 的 Amazon EC2 m4.4xlarge 实 
例 中 ， 扑 取 完 成 时 间 是 1 分 44 秒 ， 即 480 个 页 面 / 秒 。 在 同一 台 机 器 中 ， 
我 将 Scrapyd 的 实例 数量 加 倍 ， 即 增加 到 6 个 (只 需 编辑 Vagrantfile 

、scrapy.cfg 以 及 settings.py ) ， 此 时 的 虫 完成 时 间 为 1 分 15 
秒 ， 即 其 速度 为 667 个 页 面 / 秒 。 在 最 后 一 种 情况 下 ， 我 们 的 Web 服 务 
纵 似 乎 遇 到 了 瓶颈 〈 在 实际 中 意味 着 中 断 ) 。 


我 们 得 到 的 性 能 与 理论 最 大 值 之 间 的 距离 是 合理 的 。 有 很 多 小 的 
延迟 在 我 们 的 粗略 计算 中 是 没有 考虑 进去 的 。 尽 管 我 们 之 前 声称 有 
250ms 的 页 面 加 载 延 迟 ， 但 是 在 前 面 的 章节 中 可 以 看 到 该 延迟 实际 上 
更 大 ， 因 为 至 少 还 有 Twisted 和 操作 系统 的 延 愉 。 另 外 ， 还 有 一 些 其 他 
延迟 ， 比 如 UREL 从 开发 机 传输 到 Scrapyd 服 务 历 的 时 间 、 FAT ERAS 
Item 通过 FTP 传 给 Spark 的 时 间 以 及 Scrapyd 发 现 和 计划 任务 所 花费 的 
时 间 (平均 2.5 秒 一 一 参考 Scrapyd 的 p011_interval 设置 ) 。 此 
外 ， 还 有 开发 机 以 及 Scrapyd 礁 到 的 启动 时 间 没 有 计算 进来 。 我 将 不 会 
尝试 改善 这 些 延 开 中 的 任何 一 个 ， 除 非 能 确定 它们 可 以 提升 吞吐 量 。 
我 的 下 一 步 是 增加 礁 取 的 大 小 《比如 50 万 个 页 面 ) 、 负 载 均 衡 几 个 
Web 服 务 故 实例 以 及 在 我 们 的 扩展 尝试 中 发 现下 一 个 有 趣 的 挑战 。 


11.9 ”关键 要 点 


本 章 最 重要 的 要 点 是 ， 如 末 你 想 运行 分 布 式 候 虫 ， 则 应 当 使 用 合 
适 的 批 次 大 小 。 


根据 源 网 站 的 啊 应 速度 ， 你 可 能 有 数 百 、 数 千 甚 至 数 万 个 URL。 
你 会 希望 它们 足够 大 ， 达 到 儿 分 钟 的 级 别 ， 以 便 能 够 分 摊 局 动 成 本 。 
而 男 一 方面 ， 你 义 不 布 望 它 们 过 大 ， 因 为 这 将 会 使 机 右 故 障 成 为 主要 
风险 。 在 容错 分 布 式 系统 中 ， 你 可 以 重 试 失败 的 批 次 ， 但 你 不 会 布 望 
这 将 给 你 市 来 几 个 小 时 的 工作 量 。 


11.10 本章 小 结 


我 希望 你 能 喜欢 这 本 关于 Scrapy 的 书 ， 束 像 我 编写 它 那 样 。 你 现 
在 已 经 对 Scrapy 的 能 力 有 了 非常 丰富 的 了 解 ， 并 且 能 够 使 用 它 实现 或 
简单 或 复杂 的 爬虫 场景 。 你 也 会 对 使 用 这 样 一 个 高 性 能 系统 并 充分 利 
用 它 进 行 开发 的 复杂 性 有 所 了 解 。 使 用 朴 虫 ， 你 可 以 通过 目 己 的 应 用 
及 时 获取 现实 世界 中 的 大 规模 数据 集 。 我 们 已 经 看 到 了 使 用 Scrapy 数 
据 集 构建 手机 应 用 及 实现 有 趣 分 析 的 方式 。 硕 望 你 能 使 用 Scrapy 开 发 
出 优秀 、 创 新 的 应 用 ， 让 我 们 的 世界 变 得 更 好 。 祝 你 好 运 | 


附录 A ” 必 备 软件 的 安装 与 故障 排除 


A.l 必 备 软件 的 安装 


本 书 使 用 了 庞大 的 虚拟 服务 器 系统 演示 现实 中 多 服务 器 部 署 环境 
下 的 Scrapy 使 用 。 我 们 使 用 了 行业 标准 工具 一 一 Vagrant 和 Docker， 来 
搭建 该 系统 。 由 于 本 书 严 重 依赖 于 网 站 内 容 和 布局 ， 如 果 我 们 使 用 不 
可 控 的 网 站 ， 那 么 我 们 的 例子 将 会 在 几 个 月 的 时 间 之 后 无 法 使 用 。 
Vagrant 和 Docker 为 我 们 提供 了 一 个 独立 的 环境 ， 在 这 里 我 们 的 示例 无 
论 现在 还 是 以 后 都 能 正常 运行 。 作 为 附 市 的 好 人 处， 我 们 不 会 访问 任何 
远程 服务 器 ， 因 此 就 不 会 对 任何 网 站 管理 者 造成 不 便 。 即 使 我 们 破坏 
了 某 些 东西 ， 造 成 示例 无 法 工作 ， 也 可 以 使 用 两 个 命令 : vagrant 
destroy 和 vagrant up --no-parallel ， 销 毁 并 重建 系统 ， 继 


续 运行 。 


在 开始 之 前 ， 我 需要 说 明 一 下 ， 该 基础 架构 是 专门 为 本 书 读者 的 
需求 定制 的 。 尤 其 是 有 关 Docker 的 部 分 ， 普 遍 共 识 是 每 个 Docker 容 器 
应 当 是 只 运行 单一 进程 的 微服 务 。 我 们 并 没有 这 么 做 。 我 们 的 很 多 
Docker 容 器 都 比较 重 ， 我 们 可 以 使 用 vagrant ssh 连接 它们 并 执行 
各 种 操作 。 尤 其 是 我 们 的 开发 机 看 起 来 一 点 也 不 像 微服 务 。 这 是 我 们 
去 往 该 隔离 系统 的 用 户 友 好 的 网 关 ， 我 们 将 其 视 为 功能 齐全 的 Linux 机 
器 。 如 果 我 们 不 使 用 这 种 方式 改变 规则 ， 就 必须 使 用 大 量 的 Vagrant 和 
Docker 命 令 ， 更 加 深入 地 排查 故障 ， 在 这 种 情况 下 本 书 将 很 快 变 为 


Vagrant/Docker 书 籍 。 我 希望 Docker 爱 好 者 能 够 原 访 我 们 ， 并 且 每 位 读 
者 能 够 捍 受 到 Vagrant 和 Docker 市 给 我 们 的 方便 和 益处 。 


我 们 不 可 能 测试 每 个 软件 /硬件 的 配置 。 假 设 某 些 地 方 无 法 工作 ， 
如 果 可 以 的 话 ， 请 修复 它 并 在 GitHub 中 向 我 们 发 送 一 个 Pull Request ° 
如 果 你 不 知道 如 何 修复 ， 那 么 请 在 GitHub 上 搜索 相关 issue， 如 果 不 存 
在 的 话 请 打开 一 个 新 的 issue 。 


A.2 系统 
本 节 用 于 参考 。 你 可 以 先 跳 过 本 节 内 容 ， 当 想 要 更 好 地 理解 本 书 


系统 的 构成 方式 时 ， 可 以 返回 来 阅读 本 也 。 我 们 在 相关 章 世 中 重复 了 
本 世 中 的 部 分 信息 。 


我 们 使 用 Vagrant 构 建 了 如 下 系统 ( 见 图 A.1) 。 
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Official ElasticSearch 
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scrapyd:6800 


dev 
(scrapybook/dev) 
| Ubuntu Trusty + scrapy/ 
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redis 
(scrapybook/redis) 
Official Redis container 


http:9312 
web 
(scrapybook/web) 
Ubuntu Trusty + Twisted 


mysq! 
(scrapybook/mysq]) 


web server Official MySQL container 


scrapyd:6801-6803 


spark 
(scrapybook/spark) 
Ubuntu Trusty + pure-ftpd 
+ Apache Spark 


scrapyd?..3 
(scrapybook/dev) 
Ubuntu Trusty + scrapyd 


图 A.1 本 书 使 用 的 系统 


在 图 A.1 中 ， 每 个 方 框 表示 一 台 服 务 右 ， 主 机 名 是 其 标题 的 第 一 部 

分 (dev `Web 、es 等 ) 。 标 题 的 第 二 部 分 是 其 使 用 的 Docker 镜 像 
(scrapybook/dev ` scrapybook/web ` scrapybook/es 

等 ) 。 下 面 是 运行 在 该 服务 器 上 的 软件 的 简要 描述 。 线 段 表示 不 同 服 
务 需 之 间 的 链接 ， 其 协议 写 在 线段 务 边 。Docker 所 提供 的 隅 离 的 一 部 
分 是 不 允许 超出 显 式 声明 的 连接 。 也 就 是 说 ， 比 如 你 想 在 Spark 服 务 堪 
上 使 用 1234 端 口 监 听 某 些 东西 ， 除 非 你 在 Vagrant 文 件 中 添加 相关 声明 
骏 露 该 端口 ， 否 则 没有 人 能 连接 到 该 端口 。 请 记 住 这 一 点 ， 以 避免 在 
其 他 服务 右 中 安 闭 目 定义 软件 时 出 现 问题 。 


在 大 部 分 章节 中 ， 我 们 只 会 使 用 到 两 个 机 器 : dev 和 web 。 
vagrant ssh 可 以 让 我 们 连接 到 开发 机 中 。 我 们 可 以 从 这 里 使 用 主 
机 名 很 轻松 地 访问 其 他 机 器 (mysql + web 等 ) 。 我 们 可 以 通过 执行 
如 ping web 的 操作 来 确认 能 否 访问 web 机 器 。 我 们 在 每 章 中 使 用 并 
解释 了 很 多 命令 。 第 9 章 演 示 了 如 何 推送 数据 到 不 同 的 数据 库 。 第 11 章 
使 用 了 3 个 运行 Scrapyd 的 Docker 容 器 (实际 上 与 开发 机 相同 ， 以 减少 
REA) ， 这 些 机 器 的 主机 名 分 别 是 scrapyd1-3 。 我 们 还 使 用 了 
一 个 主机 名 为 spark 的 服务 器 ， 用 于 运行 Apache Spark 以 及 FTP 服 
务 。 可 以 使 用 vagrant ssh spark 连接 该 服务 器 ， 并 运行 Spark 任 


可 以 在 GitHub 顶 级 目录 的 Vagrantfile 中 找到 该 系统 的 描述 。 
当 输 入 vagrant up --no-parallel 时 ， 系 统 将 开始 构建 。 这 将 
会 花费 几 分 钟 时 间 ， 尤 其 是 在 第 一 次 构建 时 ， 我 们 将 会 在 后 面 的 FAQ 
中 了 解 到 更 详细 的 介绍 。 可 以 看 到 ， 本 书 代 码 是 挂 载 在 ~/book 目录 
当中 的 。 任 何 时 候 我 们 在 宿主 机 修改 其 中 的 内 容 时 ， 变 更 都 会 自动 传 
播 。 这 样 我 们 就 可 以 使 用 文本 编辑 器 或 IDE 修 改 文件 ， 并 且 可 以 在 开 
发 机 中 快速 查看 变化 了 。 


最 后 ， 一 些 监听 端口 被 转发 到 我 们 的 宿主 机 中 ， 并 暴露 了 相关 的 
服务 。 比 如 ， 你 可 以 使 用 一 个 简单 的 Web 浏 览 器 来 访问 它们 。 如 果 你 
已 经 在 计算 机 中 使 用 了 其 中 某 个 端口 ， 那 么 会 产生 冲突 ， 导 致 系统 构 
建 无 法 成 功 。 我 们 将 会 在 后 面 的 FAQ 中 告知 你 如 何 解决 这 种 情况 。 表 
A.1 是 转发 的 端口 列表 。 


表 A.1 


机 器 和 服务 从 开发 机 访问 的 地 址 ”| 从 你 的 宿主 ) 机 访问 的 地 址 


Web 一 eb 服 务 器 http://web:9312 http://localhost :9312 
http: //dev: 6800 http://localhost : 6800 
scrapyd1—scrapyd http://scrapyd1: 6800 http://localhost :6801 
scrapyd2—scrapyd http://scrapyd2: 6800 http://localhost : 6802 
scrapyd3—scrapyd http://scrapyd3: 6800 http://localhost : 6803 
es—Flasticsearch API http://es:9200 http://localhost : 9200 


ftp://spark:21 & 30000- 
spark—FTP ftp://localhost:21 & 30000-9 
9 


Redis—Redis API redis://redis:6379 redis://localhost :6379 


MySQL - MySQL2¢4 


TE 


mysql://mysql:3306 mysql://localhost:3306 


部 分 机 器 的 ssh 也 是 暴露 的 ，Vagrant 负 责 为 我 们 重 定向 并 转发 这 
些 端口 ， 以 避免 冲突 。 我 们 所 需要 做 的 就 是 运行 vagrant ssh 
<hostname> 来 访问 想 要 连接 的 机 器 。 
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A.3 ”安装 概述 


我 们 所 需 安装 的 必要 软件 如 下 : 


e Vagrant; 
e git; 
e VirtualBox (Windows 或 Mac 主 机 ) 或 Docker (Linux 主 机 ) ° 


在 Windows 中 ， 可 能 还 需要 启用 git ssh 客户 端 。 你 可 以 访问 它 
们 的 网 站 ， 并 遵照 它们 对 你 所 使 用 的 平台 描 述 的 步 又 操作 。 在 下 面 几 
玉 中 ， 我 们 将 委 试 提供 逐步 指引 方案 ， 目 前 来 说 这 些 方法 是 有 效 的 ， 
不 过 它们 肯定 会 在 未 来 某 个 时 间 失 效 ， 因 此 也 请 随时 关注 其 官方 文 
档 。 


A.4 在 Linux 上 安装 


我 们 之 所 以 首先 介绍 如 何在 Linux 上 安 效 系统 是 因为 它 是 最 简单 
的 。 我 将 以 Ubuntu 14.04.3 LTS (Trusty Tahr) 进 行 演示 ， 不 过 该 过 程 在 
其 他 分 发 版 本 中 也 会 十 分 相似 ， 当 然 分 发 版 本 越 不 常见 ， 你 就 越 能 了 
解 如 何 填补 其 中 的 差距 。 为 了 安装 Vagrant， 需 要 访问 Vagrant 的 网 站 : 
https://ww.vagrant.com/ ， 并 浏览 其 下 载 页 。 右 键 单 击 
Debian package, 64-bit version 。 复 制 链接 地 址 ， 如 图 A.2 所 示 。 


Big WINDOWS 


(1) A (2) click 
Universal (32 and 64-bit) 


Right-click-on 4 
the link Open Link in New Tab © terminal 
or ‘ Ope@g Link in New Window 7 ] Open! en 
of a B) N Open ink in Incognito Window 有 ii Applications 
a 32-bit | Ba 加 
Search Google com for “64-bit” i Pe 
Print... 
TT Sm CENTO. Evernnta Wah /lnner...-.---- > = 


图 A.2 


我 们 将 使 用 终端 安装 Vagrant， 因 为 这 是 最 通用 的 方式 ， 尽 管 可 以 
在 Ubuntu 上 通过 几 下 单 击 达成 相同 目的 。 为 了 打开 终端 ， 需 要 单 击 屏 
幕 左 上 角 的 Ubuntu 图 标 来 打开 Dash 。 另 一 种 方案 是 ， 按 下 Windows 
按键 。 然 后 输入 terminal ， 并 单 击 Terminal 图 标 以 打开 它 。 


我 们 输入 wget ， 并 粘贴 从 Vagrant 页 面 中 得 到 的 链接 。 几 秒 后 ， 
将 会 下 载 一 个 ,deb 文件 。 输 入 sudo dpkg -I <name of the 
.deb file you just downloaded> 以 安装 文件 。 到 这 里 为 止 ， 
Vagrant 已 经 被 安装 好 了 。 


安 儿 git 只 需要 在 终端 中 输入 如 下 两 行 命令 。 


$ sudo apt-get update 


$ sudo apt-get install git 


现在 ， 让 我 们 来 安装 Docker。 我 们 将 按照 
https://docs.docker. com/engine/ 
installation/ubuntulinux/ 的 指南 进行 安装 。 在 终端 中 ， 输 入 
如 下 命令 。 


$ sudo apt-key adv --keyserver hkp://p80.pool.sks- 
keyservers.net:80 


--recv-keys 58118E89F3A912897C070ADBF76221572C52609D 


$ echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" 
| sudo 


tee /etc/apt/sources.list.d/docker.list 


$ sudo apt-get update 


$ sudo apt-get install docker-engine 


$ sudo usermod -aG docker $(whoami) 


我 们 登 出 并 再 重新 登录 以 应 用 分 组 变化 ， 此 时 ， 应 该 可 以 没有 问 
题 地 使 用 docker ps 命令 了 。 现 在 ， 我 们 可 以 下 载 本 书 的 代码 ， 并 


享受 本 书 内 容 。 


$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 


$ vagrant up --no-parallel 


A.5 在 Windows 或 Mac 上 安装 


Windows 和 Mac 环 境 中 的 安 狠 过 程 是 相似 的 ， 因 此 我 们 将 一 起 介 
绍 这 两 种 环境 下 的 安 狠 ， 并 频 显 它们 之 间 的 区 别 。 


A.5.1 ”安装 Vagrant 


为 了 安装 Vagrant， 我 们 需要 访问 Vagrant 的 网 站 : 
https://www. vagrantup.com/ ， 并 浏览 其 下 载 页 。 选 择 自己 
的 操作 系统 ， 并 使 用 安 狼 癌 导 进行 安装 ， 如 图 A.3 所 示 。 
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几 次 单 击 之 后 ，Vagrant 将 会 安装 好 。 要 想 访问 它 ， 需 要 打开 命令 
行 或 终端 。 


A5.2 ”如 何 访问 终端 


在 Windows 中 ， 可 以 按 下 Ctrl + Esc 或 Win 键 打开 应 用 菜单 ， 并 搜 
索 cmd 。 而 在 Mac 中 ， 可 以 按 下 Cmd + Space ， 并 搜索 terminal 。 
上 述 访 问 方 式 如 图 A.4 所 示 。 


Windows 
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Search 
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bash 


MacBook:~ lookfwd$ vagrant ssh 
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图 A.4 


无 论 哪 种 情况 ， 我 们 都 得 到 了 一 个 控制 台 窗 口 ， 当 我 们 输入 
vagrant 时 ， 将 会 打印 出 一 些 说 明 。 这 吏 是 我 们 现在 所 需要 做 的 所 有 
FR 


A.5.3 ”安装 VirtualBox 和 Git 


为 了 简化 该 步骤 ， 我 们 将 安 儿 Docker Toolbox， 在 其 中 已 经 包含 了 
Git 和 VirtualBox。 如 果 我 们 使 用 Google 搜 索 docker toolbox install ， 可 
以 找到 https://www.docker.com/ docker-toolbox ， 在 这 
里 可 以 下 载 适用 于 我 们 操作 系统 的 版 本 。 安 装 过 程 像 Vagrant 一 样 科 


单 ， 如 图 A.5 所 示 。 
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图 A.5 


A.5.4 确保 VirtualBox 支 持 64 位 镜像 


安装 好 Docker Toolbox 之 后 ， 可 以 在 Windows 桌 面 或 Mac 的 局 动 局 
( 按 下 F4 打 开 ) 中 找到 VirtualBox 的 图 标 。 尺 早 检查 VirtualBox 是 否 支 
持 64 位 镜像 非常 重要 ， 检 查 过 程 如 图 A.6 所 示 。 
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图 A.6 


打开 VirtualBox， 单 击 New 按钮 来 创建 一 个 新 的 虚拟 机 。 
然后 单 击 Cancel 


本 下 拉 采 单 ， 检 查 其 中 的 选项 
真正 创建 一 个 虚拟 机 。 


如 果 下 拉 菜 单 中 包含 64 位 镜像 ， 


查看 版 
o 我 们 现在 还 不 需要 


那么 我 们 可 以 跳 过 本 市 接 下 来 的 部 


如 宁 下 拉 沫 单 中 没有 包含 64 位 镜像 ， 或 者 当 我 们 符 试 运行 一 个 64 
位 虚拟 机 时 得 到 类 似 VT-x/AMD-V hardware acceleration is 
notavailable on your system 的 错误 信息 的 话 ， 我 们 可 能 惑 有 一 些 麻 焕 
JT o 


这 意味 痢 VirtualBox 无 法 检测 到 我 们 电脑 中 的 VT-x 或 AMD-V 打 

展 。 如 果 我 们 的 硬件 过 旧 ， 那 么 这 种 情况 是 合理 且 符 合 预期 的 。 但 是 
如 果 是 新 硬件 ， 那 么 很 可 能 是 由 于 这 些 扩展 在 BIOS 中 被 禁用 了 。 如 采 
我 们 使 用 的 是 Windows 系 统 〈 很 大 可 能 ) ， 一 个 简单 的 方式 是 通过 名 
为 SecurAble 的 工具 进行 检查 ， 该 工具 可 以 从 
https://www.grc.com/ securable.htm 中 下 载 。 如 果 
Hardware Virtualization 为 红色 且 提 示 为 No 的 话 ， 丈 意味 着 我 们 的 
CPU 不 文 持 必 要 的 虚拟 扩展 。 在 这 种 情况 下 ， 我 们 将 无 法 运行 
Vagrant/Docker， 不 过 我 们 仍然 可 以 安装 Scrapy， 并 且 使 用 在 线 网 站 

(scrapybook.s3. amazonaws.com) 作为 源 来 运行 这 些 示例 。 
我 们 可 以 从 第 4 章 中 的 爬虫 开始 使 用 ， 该 慌 虫 是 可 以 直接 拿 来 使 用 的 ， 
并 且 是 针对 在 线 网 站 构建 的 。 


如 果 Hardware Virtualization 为 绿色 ， 我 们 很 可 能 可 以 从 BIOS 中 
局 用 该 扩展 。 使 用 Google 搜 索 你 的 电脑 机 型 ， 以 及 如 何 变更 BIOS 中 天 
于 VTx 或 AMD-V 的 设置 。 通 稼 情况 下 ， 我 们 可 以 在 重 局 时 按 下 某 个 按 
键 以 访问 BIOS。 在 这 里 ， 我 们 需要 进入 安全 相关 的 染 单 ， 然 后 局 用 
Virtualization Technology (VTx) 或 其 他 类 似 写 法 的 选项 。 重 局 过 后 ， 
我 们 将 能 够 从 该 计算 机 运行 64 位 的 虚拟 机 。 


A5.5 ”在 Windows 中 局 用 ssh 客 户 端 


如 果 我 们 使 用 的 是 Mac， 将 不 需要 本 步 ， 可 以 直接 跳 到 下 一 市 
中 。 如 果 我 们 使 用 的 是 Windows， 则 没有 提供 给 我 们 默认 的 ssh 客户 
端 。 PSE, Git 《我 们 刚才 安装 的 ) 有 一 个 ssh 客户 端 ， 我 们 可 以 
通过 添加 Windows Path 的 方式 激活 它 ， 如 图 A.7 所 示 。 


:Program Filey poser ro = 
WUSERPROFIE % \AppData Local\Temo 4 
SLISERPROFILE % ppDatal ocal\Temp 


图 A.7 


默认 情况 下 ，ssh 的 二 进 制 文件 位 于 C:\Program 
Files\Git\usr\bin 中 (图 A.7 所 示 的 1 区 域 ) 。 我 们 需要 添加 
C:\Program Files\Git\usr\bin 和 C:\Program 
Files\Git\bi``n 到 路 径 当 中 。 为 了 实现 该 目的 ， 我 们 需要 将 它们 


复制 到 记事 本 中 ， 并 在 每 个 路 径 前 添加 ;来 连接 它们 (如 图 A.7 所 示 的 3 
区 域 ) 。 最 终结 果 如 下 所 示 : 


;C:\Program Files\Git\bin;C:\Program Files\Git\usr\bin 


现在 ， 按 下 Ctrl + Esc 或 Win 按键 ， 打 开 开 始 菜 单 ， 然 后 找到 

Computer (计算 机 ) 选项 。 和 右键 单 击 它 〈 图 A.7 所 示 的 4 区 域 ) ， 并 
选择 Properties (属性 ) ° FLSA fal OA, wtf Advanced System 
Settings (高 级 系统 设置 ) 。 然 后 ， 单 击 Environment Variables ( 环 
境 变量 ) 。 这 里 是 我 们 用 于 编辑 Path 的 表单 。 单 击 Path 以 编辑 它 。 
在 Edit User Variable (编辑 用 户 变量 ) 对 话 框 中 ， 我 们 在 结尾 处 粘贴 
在 记事 本 中 连 授 的 两 个 新 路 径 。 应 当 小 心 不 要 意外 和 履 盖 追 加 路 径 ， 之 
前 的 任何 值 。 然 后 单 击 几 次 OK (确定 ) ， 退 出 所 有 对 话 框 ， 此 刻 必 


备 软件 已 经 全 部 安装 完毕 。 
A.5.6 下 载 本 书 代 码 并 创建 系统 


现在 ， 我 们 已 经 拥有 了 一 个 功能 齐全 的 Vagrant 系 统 ， 接 下 来 打开 
一 个 新 的 控制 台 / 终 端 /命令 行 我们 已 经 在 前 面 见 过 如 何 打 开 ) ， 输 
入 如 下 命令 ， 至 受 本 书 所 市 来 的 乐趣 。 


$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 


$ vagrant up --no-parallel 


A6 ”系统 创建 与 操作 FAQ 


接 下 来 是 你 在 首次 使 用 Scrapy 工 作 时 可 能 遇 到 的 问题 的 解决 方 


案 。 


A.6.1 我 应 该 下 载 什么 以 及 需要 花费 多 少时 间 


当 我 们 运行 vagrant up --no-parallel 之 后 ， 就 没有 那么 
多 的 可 见 度 了 。 所 经 过 的 时 间 与 我 们 的 下 载 速度 及 网 络 连接 质量 密切 


相关 。 图 A.8 所 示 为 当 网 络 连接 能 力 达 到 每 秒 下 载 5MB (38Mbit/s) 内 
容 时 的 期 望 时 间 。 


9. i dev, scrapyd* — 
\ 从 人 (40" - 1. Download host VM 


/ (2'00" - 400 MB) 
8. Start MySQL es 
(1'30" - 60 MB) 
2. Start host VM 

7. Start Redis server —___. S / (20" - ) 
(30" - 5 MB) 
6. Start ES server ——__-/ | — 3. Provision docker 
(40” - 30 MB) 


(1'30” - 30 MB) 
Time: 12°30" 
Download: 1.5 GB mh 
5. Start Spark server — _/ 
(2'10" - 320 MB) 4. Download base, ° “~~ 


\———— start web server 


(3'20" - 600 MB) 


图 A.8 


如 果 我 们 使 用 的 是 Linux 环 境 ， 或 是 Docker 已 经 被 安装 好 ， 那 么 前 
三 步 就 不 是 必要 的 ， 这 样 可 以 为 我 们 节省 4 分 钟 的 时 间 以 及 450MB 的 
TRE- 


请 注意 ， 上 述 所 有 步骤 只 与 用 于 下 载 全 部 内 容 的 vagrant up - 
-no-parallel 命令 的 第 一 次 运行 相关 。 后 续 运 行 在 通常 情况 下 只 会 
花费 不 到 10 秒 的 时 间 。 


A.6.2 ”如 果 Vagrant 无 法 响应 应 该 怎么 办 


可 能 会 有 很 多 原因 导致 Vagrant 无 法 啊 应 ， 我 们 所 需要 做 的 束 是 按 
下 Ctrl + C 两 次 从 中 退出 。 然 后 再 次 尝试 vagrant up --no- 
parallel ， 此 时 应 当 能 够 恢复 。 我 们 可 能 需要 这 样 做 儿 次 ， 这 取决 
于 网 络 连接 的 速度 和 质量 。 如 有 果 打 开 Windows Task Manager 
(Windows 任 务 管理 器 ) 或 Mac 的 Activity Monitor (活动 监视 器 ) ， 
可 以 更 清晰 地 看 到 Vagrant 正 在 做 什么 ， 如 图 A.9 所 示 。 


Local Area Connection 


Packets in 


Packets out: 


lata sent/sec 


在 下 载 期 间或 之 后 不 超过 60 秒 的 短暂 无 法 啊 应 是 可 以 预期 的 ， 因 
为 此 时 软件 正在 进行 安装 。 而 更 长 时 间 的 无 法 响应 则 很 有 可 能 意味 着 
出 现 了 茶 些 问题 。 


当 我 们 中 上 断后 再 恢复 时 ，vagrant up --no-parallel 可 能 
会 执行 失败 ， 并 返回 类 似 下 面 所 述 的 错误 信息 。 


Vagrant cannot forward the specified ports on this VM... The 
forwarded 


port to 21 is already in use on the host machine. 


这 同样 是 一 个 临时 性 的 问题 。 如 果 我 们 再 次 运行 vagrant up - 
-no-parallel ， 则 应 该 能 够 成 功 恢复 。 


假设 我 们 见 到 了 如 下 的 失败 信息 。 


. Command: "docker" "ps" "-a" "-q" "--no-trunc" 


Stderr: bash: line 2: docker: command not found 


如 条 发 生 该 情况 ， 请 按照 下 一 个 问题 所 显示 的 方法 关闭 并 恢复 虚 
HHL ° 


A.6.3 ”如 何 快速 关闭 /恢复 虚拟 机 


当 使 用 虚拟 机 时 ， 最 快 的 关闭 方式 是 进入 节能 状态 ， 具 体 来 说 就 
是 打开 VirtualBox， 选 择 虚 拟 机 ， 按 下 Ctrlt V 或 Cmqd + V， 或 右键 单 
击 菜单 并 选择 Save State (保存 状态 ) ， 如 图 A.10 所 示 。 


W ë AP Kd 
New Settings Discard Show 


Pa docker-provider =| General 
Settings... wider 
ea Clone... = Tozi 4-bit) 
Ø Remove... 
Group ai 
emory: 4096 MB 
Show ors: 8 


Pause BP der: 
Reset 


ACPI Shutdown 


Discard Saved State... 3J 

Show Log... EL 、 POEA = 

Refresh Desktop Server: Disabled 
ee apture: Disabled 

Show in Finder 

Create Alias on Desktop rage 

Sort er: SATAController 


Ott 0: box-disk1.vmi 


图 A.10 


我 们 可 以 通过 运行 vagrant up --no-parallel 恢复 虚拟 
机 。 开 发 和 Spark 服 务 器 的 ~/book 目录 都 应 该 可 以 正常 工作 。 


A64 如 何 完全 重 置 虚拟 机 


如 采 我 们 想 要 变更 核心 数量 、 内 存 大 小 或 虚拟 机 的 端口 映射 ， 则 
需要 进行 完全 重 置 。 为 了 达到 该 目的 ， 我 们 仍然 需要 按照 前 一 个 答案 
的 步骤 操作 ， 不 过 现在 a Off (关闭 电源 ) ， 或 者 按 
下 Ctrl + 下 或 Cmd + 下 。 我 们 也 能 通过 编程 方式 完成 此 事 ， 其 执行 语 
句 是 vagrant siete al < - -prune。 我 们 可 以 找到 名 
为 “docker-provider” 的 虚拟 主机 的 ID (比如 95d1234) ， 然 后 使 用 
vagrant halt 停止 它 ， 比 如 vagrant halt 957d887 ° 


然后 ， 可 以 使 用 vagrant up --no- need 重启 系统 。 不 
过 很 遗憾 的 是 ， 开 发 和 Spark 机 融 很 可 能 已 经 清空 了 其 ~/book 目录 。 


要 想 解决 该 问题 ， 可 以 运行 vagrant destroy -f dev spark, 
然后 重新 运行 vagrant up --no-parallel。 这 将 解决 此 类 问 


题 。 
A6.5 “如何 调整 虚拟 机 大 小 


我 们 可 能 想 要 改变 虚拟 机 的 大 小 ， 比 如 将 使 用 的 内 存 从 2GB 调 整 
为 1GB， 将 使 用 的 8 核 调 整 为 4 核 。 我 们 可 以 通过 编辑 
Vagrantfile.dockerhost 的 vb ,memory 及 vb .cpus 设置 来 进 
行 调整 。 然 后 ， 按 照 上 一 个 答案 的 流程 完全 重 置 虚 拟 机 。 


A.6.6 ”如 何 解 决 端口 冲突 


有 时 ， 在 主机 上 运行 的 一 些 服务 可 能 占用 了 该 系统 需要 的 端口 。 
首先 ， 请 注意 如 果 我 们 打开 了 这 两 个 机 器 的 Vagrantfile ， 请 移 除 
其 中 所 有 的 forwarded_port 语句 ， 按 照 后 面 讲 到 的 方法 重 置 ， 此 
时 仍然 能 够 运行 本 书 中 的 示例 。 我 们 可 能 刚好 不 太 容 易 检查 宿主 机 上 
这 些 端 口 运行 的 服务 (通常 通过 Web 浏 宽 器 ) 


也 就 是 说 ， 我 们 可 以 通过 重新 映射 冲突 端口 的 方式 更 适当 地 解决 
冲突 。 让 我 们 使 用 Web 服 务 器 9312 端 口 的 冲突 作为 示例 。 根 据 我 们 运 
行 的 是 原生 Linux 还 是 虚 拟 机 ， 过 程 会 有 些许 不 同 。 


Linux 环 境 使 用 原生 Docker 


该 问题 将 表现 为 如 下 所 示 的 错 旋 信 ， 


ell 
O 


Stderr: Error: Cannot start container a22f...: failed to create 
endpoint web on network bridge: Error starting userland proxy: 
listen 


tcp 0.0.0.0:9312: bind: address already in use 


打开 Dockerfile， 编 辑 Web 服 务 器 中 forwarded_port 语句 的 
host 值 。 之 后 ， 使 用 vagrant destroy web 销毁 web 服务器 ， 并 
通过 vagrant up web 重启 ， 如 果 问 题 发 生 在 初始 化 加 载 阶 段 ， 则 
使 用 vagrant up --no-parallel 恢复 加 载 。 


Windows 或 Mac 环 境 使 用 虚拟 机 
此 时 ， 我 们 会 得 到 不 同 的 错误 信息 。 


Vagrant cannot forward the specified ports on this VM, since they 
would collide... The forwarded port to 9312 is already in use 


on the host machine... 


为 了 修复 该 问题 ， 我 们 需要 打开 Vagrantfile.dockerhost , 
移 除 已 有 的 包含 端口 号 的 行 。 然 后 在 下 面 添 加 目 定 义 端 口 转发 语句 ， 
比如 : config.vm.network “forwarded_port”, guest: 
9312, host: 9316 。 此 时 将 会 修改 为 使 用 9316 端 口 。 接 下 来 ， 按 
照 “如 何 完全 重 置 虚拟 机 ”这 一 问题 的 答案 流程 重 置 虚 拟 机 ， 一 切 又 都 
会 正常 工作 了 。 
A.6.7 ”如 何 隐 藏 在 公司 代理 背后 工作 

有 一 些 人 简单 代理 和 TLS 拦 截 代 理 。 人 简单 代理 需要 我 们 在 请 求 到 达 
互联 网 之 前 ， 转 发 到 代理 服务 右上 。 它 们 可 能 需要 权限 验证 ， 也 可 能 


不 需要 ， 不 过 无 论 哪 种 情况 ， 我 们 需要 使 用 的 信息 束 是 URL， 该 URL 
可 以 从 我 们 的 IT 部 门 获 取 到 。 它 大 概 形 如 


http://user:pass@proxy.com:8080/。 如 果 我 们 使 用 的 是 
Linux， 而 不 是 虚拟 机 ， 很 可 能 已 经 完全 正确 配置 ， 不 再 需要 进一步 的 
调整 。 不 过 如 果 我 们 使 用 的 是 虚拟 机 ， 则 需要 使 代理 服务 器 在 
Vagrant ` Docker provider VM、Ubuntu 的 APT 下 载 以 及 Docker 服 务 目 吴 
都 应 当 可 用 。 所 有 这 些 操作 都 已 经 在 Vagrantfile.dockerhost 中 
进行 了 处 理 ， 我 们 只 需要 移 除 定义 proxy_url 行 的 注释 ， 并 正确 设 
置 其 值 即 可 。 


假设 遇 到 了 如 下 的 SSL 相 关 的 问题 。 


SSL certificate problem: unable to get local issuer certificate 


If you'd like to turn off curl's verification of the certificate, 


use 
the -k (or --insecure) option. 


无 论 是 Vagrant 下 是 部 署 的 Docker， 我 们 都 很 可 能 需要 处 理 TLS 拦 
截 代理 的 问题 。 这 种 代理 旨 在 以 一 种 “中 间 人 ”的 角色 监控 所 有 安全 和 
不 安全 流量 。 它 们 代表 我 们 执行 https 请 求 ， 在 必要 时 验证 证 书 ， 而 我 
们 执行 到 它们 的 https 连 接 ， 验 证 它们 的 证 书 。 我 们 的 IT 部 门 很 可 能 会 
提供 给 我 们 一 个 证 书 ， 通 常情 况 下 是 .crt 文件 的 形式 。 我 们 将 该 文 
件 的 副本 放 到 本 书 主 目录 下 (Vagrantfile 所 在 的 目录 ) 。 接 下 
来 ， 按 照 前 面 例子 设置 proxy_url ， 然 后 更 进一步 取消 掉 定义 
crt_filename 变量 所 在 行 的 注释， 将 其 值 设 置 为 我 们 的 证 书 文件 的 
和 名称。 


A.6.8 如何 连 接 Docker provider 虚 拟 机 


如 有 果 我 们 处 于 Linux 环 境 中 ， 并 且 没 有 使 用 虚拟 机 ， 那 么 我 们 的 机 
名 已 经 是 Docker provider， 此 时 无 需 做 任何 事情 。 如 果 我 们 使 用 的 是 
虚拟 机 ， 那 么 可 以 通过 运行 vagrant global-status --prune 
得 到 Docker provider 的 ID， 然 后 找到 名 为 docker -provider 的 机 
如。 我 们 可 以 在 Linux 或 Mac 环 境 中 ， 使 用 别名 的 方式 对 其 实现 目 动 
化 。 


$ alias provider_id="vagrant global-status --prune | grep 'docker- 


provider' | awk '{print \$1}'" 


我 们 可 以 使 用 vagrant ssh <provider id> ， 或 者 在 已 设置 
别名 的 情况 下 使 用 vagrant ssh $(provider_id) 来 连接 Docker 
provider。 在 这 里 是 Ubuntu Trusty 64 位 虚拟 机 © 


A.6.9 每 个 服务 器 使 用 了 多 少 CPU/ 内 存 


如 果 我 们 使 用 了 原生 Docker， 或 者 按照 前 一 个 答案 描述 的 方法 连 
接 到 了 provider， 那 么 可 以 通过 docker stats ， 看 到 每 台独 立 
Docker 容 姻 所 消耗 的 资源 ， 如 下 所 示 。 


$ docker ps --format "{{.Names}}" | xargs docker stats 


图 A.11 所 示 为 运行 第 11 章 代码 时 的 示例 输出 ， 此 时 是 Scrapyd 从 
Web 服 务 右 集中 下 载 的 时 间 。 


CONTAINER CPU % MEM USAGE / LIMIT MEM % 
dev Q.11% 63.61 
es 0.46% 295.1 
mysql 0.09% 54.3 M 


MB 3.03% 

MB 14.06% 

B 2.59% 

redis 0.06% 12.28 MB 0.59% 

scrapyd1 128 .36% 208.4 MB H 9.93% 

scrapyd2 118.59% 198.7 MB 9.47% 
4 MB 9.79% 
2 MB 17 . 83% 
4 MB 


3.80% 


scrapyd3 114.12% 205. 
spark 1.17% 374. 
web 45.79% 79.8 


图 A.11 


A.6.10 ”如何 查 看 Docker 容 器 镜像 的 大 小 


如 果 我 们 使 用 了 原生 Docker， 或 者 按照 之 前 答案 中 看 到 的 方法 连 
接 到 了 provider， 那 么 可 以 使 用 如 下 命令 查看 Docker 镜 像 大 小 。 


$ docker images 
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少 。 因 此 ， 我 们 看 到 的 GB 级 的 大 小 和 是 虚 拟 大 小 ， 而 不 是 真实 占用 的 磁 
盘 空 间 。 如 果 我 们 想 要 查看 镜像 的 构建 层次 以 及 个 体 大 小 ， 可 以 为 很 
长 的 dockviz 命令 创建 一 个 别名 ， 然 后 按照 如 下 所 示 进 行使 用 。 


$ alias dockviz="docker run --rm -V 
/var/run/docker.sock:/var/run/docker. 


sock nate/dockviz" 


$ dockviz images -t 


A611 ” 当 Vagrant 无 法 响应 时 ， 如 何 重 置 系统 


即使 最 终 处 于 一 个 连 Vagrant 也 无 法 重 置 的 混乱 状态 ， 我 们 也 可 以 
对 系统 进行 完全 重 置 。 我 们 可 以 在 不 重 置 虚拟 主机 的 情况 下 做 到 这 
点 ， 当 然 这 种 方式 需要 花费 一 些 时 间 来 完成 。 我 们 所 需要 做 的 就 是 连 
接 到 docker provider 机 絮 ， 强 行 停 止 所 有 容 絮 ， 移 除 它们 的 镜像 ， 然 后 
重启 Docker。 具体 命 令 如 下 所 示 。 


$ docker stop $(docker ps -a -q) 


$ docker rm $(docker ps -a -q) 


$ sudo service docker restart 


也 可 以 使 用 如 下 命令 。 


$ docker rmi $(docker images -a | grep "<none>" | awk "{print 
$3} " ) 


我 们 使 用 这 种 方式 移 除 了 下 载 的 所 有 Docker 层 内 容 ， 这 残 意味 着 
下 一 次 执行 vagrant up --no-parallel 时 将 会 花费 一 些 时 间 用 
于 下 载 。 


A.7 ASCARI, (AI) 


我 们 可 以 随时 使 用 VirtualBox 以 及 从 osboxes.org ( 
http://www.osboxes.org/ubuntu/ ) 下 载 得 到 的 Ubuntu 
14.04.3 (Trusty Tahr) 镜像 ， 按 照 Linux 的 安装 过 程 操作 。 代 码 将 会 完 
全 运行 在 虚拟 机 里 。 我 们 唯一 会 急 略 的 事情 是 端口 转发 和 同步 文件 
夹 ， 这 意味 着 要 么 我 们 手动 设置 它们 ， 要 么 在 虚拟 机 中 进行 开发 。 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 
编辑 策划 团队 ， 打 造 传 统 出 版 与 电子 出 版 和 上 自 出 版 结合 、 纸 质 书 与 电 
子 书 结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 提 供 最 新 技术 
资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 
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1 月 26 号 Pings J -pgi E. 


Write for Us 


Pythoni 5—5 。 贝 叶 斯 方法 ; SERR ESM «| 贝 时 斯 思 堆 : 统计 建 模 
再 分 析 核心 算法 与 贝 叶 斯 推 其 的 Python 学 习 法 近期 活动 


社区 里 都 有 什么 ? 
购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 ~、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 


下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


男 外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 
束 可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ; 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 
趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 天 广 的 作者 提出 采 
访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 
民 邮 电 出 版 社 书库 发 货 ， 电 子 书 提供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 
间 买 到 心仪 的 新 书 。 


用 户 帐户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ,在 mn 里 项 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


| NIEA OA IIO E A EOE N N AOE AA OAE O ETE | 


购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 ， 注 册 成 为 社区 用 户 ， 在 下 单 购 
书 时 输入 "57AWG ”， 然 后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 (本 优惠 券 只 可 使 用 
一 次 ) 。 2 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 
购买 ， 多 种 阅读 选择 。 
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社区 里 还 可 以 做 什么 ? 


提交 勘误 


您 可 以 在 图 书页 面 下 方 提 交 勘 误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 


性 区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写 作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 目 出 版 的 
乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 有 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 
特色 服务 。 


会 议 活 动 早 知道 
您 可 以 掌握 代 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 


异步 社区 


微 信服 务 号 


方 微 博 
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ET 


QQ#: 436746675 


社区 网 址 : www.epubit.com.cn 


异步 社区 


官方 微 信 : 


官方 微 博 : @ 人 邮 异 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 & 咨 询 : contact@epubit.com.cn 


